接触 本 书 之 前 ， 我 们 刚刚 完成 了 另外 一 本 书 《Thoughtful Machine Learning with Python》 的 翻译 工作 一 那 是 一 本 非常 
适合 机 器 学 习 入 门 的 图 书 ， 也 是 该 领域 中 的 经 典 之 一 。 而 讯 速决 定 开展 对 本 书 的 翻译 ， 自 然 也 是 因为 对 其 喜爱 有 加 : 


第 一 ， 预 测 分 析 是 机 器 学 习 中 非常 有 应 用 价值 的 一 个 子 领域 ; 

第 二 ， 本 书 相当 适合 作为 一 本 进 阶 的 教材 ， 能 帮助 读者 对 机 器 学 习 在 真实 世界 的 应 用 有 直观 的 、 详 细 的 认识 ; 
第 三 ， 可 以 借 此 机 会 熟悉 一 门 在 机 器 学 习 和 统计 学 领域 广 受 欢迎 的 编程 语言 : Ri 语言 。 

可 能 很 多 读者 被 本 书 吸 引 ， 也 是 出 于 类 似 的 原因 吧 。 


这 里 谈 谈 R 语 言 。 国 内 很 多 读者 对 Ri 语言 还 不 是 很 熟悉 ， 但 R 语 言 在 国外 高 校 的 统计 系 是 一 门 必修 的 课程 。R 语 言 在 部 分 运行 
环境 中 是 开源 的 ， 这 使 它 具 有 很 强 的 生命 力 ， 其 功能 也 日 益 丰 富 、 强 大 、 稳 定 。 安 六 R 语 言 本 身 所 使 用 的 资源 很 少 ， 而 且 对 不 同 
操作 系统 的 兼容 性 令 人 满意 。 可 以 用 它 方便 地 对 数据 进行 必要 的 处 理 ， 并 绘制 出 漂亮 的 图 形 以 供 深入 观察 分 析 。 在 项 目 初期 选用 
R 语 言 作为 建 模 语言 ， 数 据 接 口 的 兼容 性 较 局 ， 能 够 快速 搭建 模型 ， 并 且 和 传统 的 统计 型 语言 相 比 ， 可 移植 性 较 局 ， 对 机 器 学 习 
模型 的 可 扩展 文 持 Package 的 资源 也 非 癌 丰 富 。 值 得 注意 的 是 ， 从 语言 开 友 产 品 的 能 力 来 看 ，C 语 言 和 Java 语 言 的 商业 可 扩展 性 
较 高 。 例 如 商业 化 集成 使 用 R 语 言 进行 大 数据 建 模 分 析 ， 主 流 服 务 器 端的 R 语 言 环境 多 是 基于 Microsoft R Server， 其 他 基于 
Linux 服 务 器 的 R 语 言 环境 多 由 R 语 言 IDE 开 发 商 来 定制 化 支持 。 思 结 而 言 ，R 语 言 能 够 快速 探索 、 搭 建 初期 的 模型 、 原 型 ， 可 以 称 
其 为 学 术 派 语言 ， 值 得 期 待 的 是 ，R 语 言 正 在 向 商业 化 语言 渐渐 迈进 。 


有 人 说 : “R 固 然 好 用 ， 但 学 起 来 却 头疼 无 比 ! ”放心 ， 已 经 有 人 用 R 编 写 好 了 丰富 的 示例 代码 ， 并 详 加 解释 ， 让 你 知道 为 
何 要 这 么 做 、 为 何不 选 另 一 种 方法 ， 而 你 还 有 哪些 其 他 选择 等 。 没 销 ， 这 些 示例 在 本 书 中 随处 可 见 。 而 且 作 者 还 会 贴心 地 反复 提 
醒 读 者 注意 避免 某 尝 错误 ， 其 重视 程度 ， 让 人 荣 不 住 猜测 ， 作 者 本 人 是 人 否 也 是 在 各 种 独 误 中 措 爬 滚 打 ， 才 练 成 了 今天 的 段位 .… 


还 有 人 说 : “数据 量 一 大 ，R 残 慢 得 像 朴 行 一 样 。” 经 验 丰富 的 作者 当然 不 会 环 记 为 你 提供 运 手 的 解决 方案 ， 比 如 SparkR、 
抽样 等 。 在 本 书 的 多 个 示例 中 ， 数 据 量 较 小 的 示例 用 于 演示 算法 的 基本 原理 ， 使 用 基本 R 足 够 。 数 据 量 大 的 示例 中 会 展示 何 时 需 
要 从 基本 R 转 换 到 SparkR， 高 效 地 完成 处 理 和 抽样 ， 表 转换 回 基 本 R， 开 始 绘 制图 形 等 R 擅 长 的 任务 。 


本 书 对 算法 的 解释 简练 而 形象 ， 但 它 本 质 上 仍 是 一 本 偏重 动手 操作 类 的 书籍 。 本 书 的 目的 是 通过 真实 的 数据 绘制 出 各 种 对 比 
图 形 ， 让 你 真 真切 切 地 感受 到 预测 分 析 项 目 是 如 何 实现 的 ， 并 会 指导 人 们 做 出 判断 和 行动 一 一 有 时 会 令 人 莫名 激动 ， 恨 不 得 马 
上 找到 真实 数据 集 来 动手 试 一 试 ， 看 目 己 能 舍利 用 强大 的 预测 分 析 能 力 去 解释 世界 、 影 响 世 界 。 

以 上 只 是 我 们 竞 得 本 书 对 读者 帮助 较 大 的 地 方 ， 本 书 当然 不 止 这 一 两 项 优点 ， 它 还 有 很 多 精彩 等 待 你 去 友 现 。 


在 本 书 的 翻译 过 程 中 ， 陈 瑶 翻 译 了 第 1 章 (部 分 ) 、 第 4 章 、 第 7 章 和 第 12 章 ， 划 旭 斌 翻译 了 第 2 章 、 第 ? 章 、 第 8 章 和 第 11 
， 刘 江 一 翻译 了 前 言 、 第 1 章 (部 分 ) 、 第 3 草 、 第 6 章 、 第 9 章 和 第 10 草 。 
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感谢 诸位 译 者 在 自 忙 之 中 挤 出 时 间 完 成 了 这 项 有 趣 的 工程 ! 
感谢 机 械 工业 出 版 社 华章 公司 的 编辑 在 翻译 过 程 中 给 予 的 悉心 帮助 和 指导 ! 
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参与 本 书 翻译 的 初 表 ， 是 因为 当时 负责 的 有 关 性 别 预测 分 析 (Gender Analysis) 和 情感 倾向 分 析 (Sentiment Analysis) 


的 项 目 ， 在 初期 选用 了 Ri 语言 作为 建 模 语言 ， 数 据 接口 的 兼容 性 较 高 ， 能 够 快速 搭建 模型 ， 并 且 和 传统 的 统计 型 语言 相 比 ， 可 移 
植 性 较 高 ， 对 机 器 学 习 模型 的 可 扩展 支持 Package 的 资源 也 非常 丰富 。 值 得 注意 的 是 ， 从 语言 开发 产品 的 能 力 来 看 ，C 语 言 和 
Java 语 言 的 商业 可 扩展 性 较 高 。 例 如 商业 化 集成 使 用 R 语 言 进行 大 数据 建 模 分 析 ， 主 流 服 务 器 端的 R 语 言 环 境 ， 多 是 基于 
Microsoft R Server， 其 他 基于 Linux 服 务 器 的 R 语 言 环境 多 由 Ri 语言 IDE 开 发 商 来 定制 化 支持 。 


伴随 看 项 目的 进行 ， 翻 译 完 本 书 ， 总 结 而 言 ，R 语 言 能 够 快速 探索 、 搭 建 切 期 的 模型 、 原 型 ， 可 以 称 其 为 学 术 派 语言 ， 值 得 
期 待 的 是 ，Ri 襄 言 正 在 同 商 业 化 语言 渐渐 迈进 。 


陈 表 


天 于 作者 


Ralph Winters 的 职业 生涯 始 于 在 一 个 音乐 表演 权利 组 织 担任 数据 库 研 究 人 员 (他 甚至 会 作曲 ) ， 继 而 延伸 到 医疗 调查 研 
究 ， 最 后 落脚 于 分 析 和 信息 技术 领域 。 他 已 经 给 很 多 名 列 世 界 500 强 的 大 企业 提供 过 自己 在 统计 和 分 析 方 面 的 经 验 ， 包 括 金 融 、 
直销 、 保 险 、 医 疗 和 制药 领域 的 企业 。 他 的 工作 涉及 很 多 不 同类 型 的 预测 分 析 项 目 ， 包 括 客户 保留 、 反 洗钱 、 客 户 之 声 文 本 挖掘 
分 析 ， 以 及 医疗 风险 和 客户 选择 模型 。 


他 如 今 在 一 家 医疗 服务 公司 担任 数据 染 构 师 ， 在 数据 和 高 级 分 析 组 工作 。 他 很 喜欢 与 一 个 拥有 业务 分 析 师 、 技 术 专 家 、 保 险 
精算 师 及 其 他 数据 科学 家 的 智囊 团 协 同 合 作 。 


Ralph 认 为 目 己 是 个 务实 的 人 。 除 了 为 Packt 出 版 社 写作 了 《Practical Predictive Analytics》 之 外 ， 他 还 参与 写作 了 另外 两 
本 著作 ， 即 2014 年 9 月 Elsevier 出 版 的 《Practical Predictive Analytics and Decisioning Systems for Medicine》 (Miner 等 人 
车 ) ， 以 及 2013 年 在 马萨诸塞 州 剑桥 第 11 届 年 度 文本 和 社会 分 析 峰 会 上 友 表 的 《Practical Text Mining with SQL using 


Relational Databases》。 


Ralph 和 他 斧 爱 的 妻子 Katherine、 迷 人 的 女儿 Clair 与 Anna 居 住 在 新 泽 西 州 ，Ralph 的 个 人 网 站 是 ralphwinters.com。 


Armando Fandango 在 REAL 公 司 担任 首席 技术 官 ， 开 上 友基 于 Al 的 产品 和 平台 ， 用 于 在 品牌 、 人 代理、 出 版 商 和 读者 之 间 生 成 
智能 的 连接 。Armando 创 立 了 Neurasights， 目 标 是 使 用 神经 网 络 和 机 器 学 习 从 大 数据 和 小 数据 中 发 掘 洞 见 。 在 此 之 前 ， 他 还 
担任 过 Epic 工 程 峪 询 集团 有 限 公司 的 首席 数据 科学 家 和 首席 技术 官 ， 曾 经 与 政府 部 门 和 和 大 型 个 人 组 织 合 作 开 发 智能 产品 ， 涉 及 机 
器 学 习 、 大 数据 工程 、 企 业 数 据 仓库 和 企业 仪表 板 。Armando 曾 经 在 Sonobi 公 司 担任 数据 主管 ， 领 导 若 干 个 数据 科学 与 工程 团 
队 ， 为 Sonobi 的 AdTech 平 台 Jetstream 推 动 大 数据 和 预测 分 析 技 术 及 策略 。Armando 曾 经 在 中 佛罗里达 大 学 的 高 级 计算 研究 中 
心 管 理 高 性 能 计算 (HPC) 的 咨询 和 基础 建设 。Armando 还 曾经 为 高 科技 初创 公司 QuantFarm、Cortxia Foundation 和 
Studyrite 做 过 顾问 团 成 员 及 Al 专 家 。Armando 的 著作 包括 一 本 名 为 《Python Data Analysis》 (第 2 版 ) 的 书 ， 以 及 在 国际 期 


处 理 (NLP) 、 机 器 学 习 以 及 分 布 式 处 理 。 他 对 工作 极 具 热 忱 ， 持 续 跟 进 


Ey 
三 


刊 和 会 议 上 上 友 表 的 研究 论文 。 
Alberto Boschetti 是 一 位 数据 科学 家 ， 在 信号 处 理 和 统计 学 方面 有 丰富 的 经 验 。 他 拥有 电信 工程 博士 学 位 ， 现 在 居住 于 伦 
敦 。 在 他 工作 的 项 目 中 ， 日 常 面 对 的 挑战 涉及 自然 语 和 
会 议 以 及 其 他 活动 。 他 的 著作 有 《Python Data Science Essentials》《Regression 


数据 科学 技术 的 最 新 进展 ， 参 加 小 组 讨论 
Analysis with Python》 和 《Large Scale Machine Learning with Python》， 全 部 由 Packt 出 版 。 


这 是 另 一 类 关于 预测 分 析 的 书 。 我 写 这 本 书 的 初衷 是 为 传统 分 析 人 员 介 绍 一 些 使 用 开放 源码 工具 的 预测 分 析 技 术 。 
不 过 ,我 很 快意 识 到 ， 传 统 分 析 工 具 的 某 些 特性 可 以 使 新 一 代数 据 科学 家 受益 。 我 曾经 在 企业 数据 解决 万 案 方 面 做 了 大 量 工 


我 很 有 兴趣 撰写 一 些 不 同类 型 的 主题 ， 如 分 析 方 法 、 敏 捷 、 元 数据 、3QL 分 析 和 可 重复 的 研究 ， 这 些 研究 在 一 些 数据 科学 / 


作 ， 
预测 分 析 书 中 经 党 被 忽略 ， 但 对 分 析 项 目的 成 功 是 至 天 重要 的 。 
想 写 一 些 很 少 被 提 及 的 分 析 技 术 ， 这 些 拉 术 超出 了 标准 回归 和 分 类 任务 的 范围 ， 例 如 使 用 生存 分 析 来 预测 客 尸 流失， 使 


我 还 想 
用 购物 篮 分 析 作 为 推荐 引擎 。 
由 于 基于 云 计算 的 解决 方案 已 经 有 了 很 大 的 进展 ， 我 认为 增加 一 些 天 于 云 分 析 (大 数据 ) 的 内 容 很 重要 ， 所 以 我 加 入 了 一 些 


在 Spark 环 境 中 开 上 友 预 测 分 析 解 决 方案 的 章节 。 
本 书 的 重点 之 一 是 触 类 旁 通 ， 我 硕 望 无 论 你 的 技术 方向 是 什么 ， 也 无 论 你 如 何 理解 数据 科学 、 预 测 分 析 、 大 数据 ， 甚 到 是 详 


如 预测 这 样 的 术语， 都 可 以 在 这 里 找到 适合 目 己 需求 的 内 容 。 
此 外 ， 作 为 数据 科学 团队 的 一 部 分 ， 我 要 向 领域 专家 们 致 冤 。 通 剃 情况 下 ， 这 些 精 通 领 域 业务 知识 的 分 析 师 没有 滩 眼 的 头 
衔 ， 但 他 们 对 于 分 析 项 目的 成 功 至 天 重要 。 希 望 我 讨论 的 一 些 话题 能 打动 他 们 的 心弦 ， 让 他 们 对 预测 分 析 的 一 些 技 术 概 念 更 感 兴 


趣 。 
当 Packt 邀 请 我 写 一 本 关于 预测 分 析 的 书 时 ， 我 首先 想到 的 是 寻找 一 种 优秀 的 开源 语言 ， 来 弥合 传统 分 析 与 当今 数据 科学 家 
之 则 的 鸿沟 。 我 认真 地 考虑 过 这 个 问题 ， 是 因为 每 种 语言 在 如 何 表达 问题 的 解决 万 案 万 面 都 有 细微 的 关 别 。 然 而 ， 我 决定 最 终 不 
在 意 那 些 细节 ， 因 为 预测 分 析 这 个 概念 不 是 依赖 于 任何 一 种 编程 语言 的 ， 而 且 编 程 语言 的 选择 通 剃 由 个 人 偏好 以 及 你 所 在 的 公司 


决定 。 
我 最 终 选 择 了 Ri 语言 ， 因 为 我 的 专业 背景 是 统计 学 ， 我 党 得 R 语 言 具 有 有 民 好 的 统计 学 严谨 性 ， 现 在 它 不 但 已 经 和 SAS 等 适合 
而 且 还 与 天 系数 据 库 系统 以 及 Web 协 议 有 很 好 的 整合 。 它 还 具有 出 色 的 绘图 和 可 视 化 系统 ， 以 及 用 户 


的 软件 做 了 合理 的 整合 ， 
贡献 的 许多 好 用 的 软件 包 ， 涵 盖 了 大 部 分 的 统计 和 预测 分 析 功 能 


地 学 习 相关 知识 。 了 解 统 计数 据 可 以 帮助 你 区 分 优良 的 模型 与 糟 炼 的 模型 ， 并 通过 了 解 基 
来 帮助 你 识别 不 良 数据 中 的 许多 问题 。 





天 于 统计 数据 ， 我 建议 你 尽 可 能 多 
本 概念 一 一 如 中 心 倾 向 度量 〈 平 均值、 中 位 数 、 众 数 ) 、 假 设 检 验 、p 值 和 效应 大 小 
如 果 你 了 解数 据 统计 ， 将 不 再 仅仅 以 目 动 的 方式 运行 封 疼 好 的 软件 ， 而 是 可 以 多 少 了 解 一 些 底 层 的 运行 机 制 。 


的 一 个 缺点 是 它 在 内 存 中 处理 数据 ， 因 此 在 单个 PC 上 使 用 时 ， 软 件 会 限制 数据 集 的 大 小 ， 使 之 处 理 不 了 更 大 的 数据 


ro 


R) 音 言 


集 。 对 于 本 书 中 使 用 的 数据 集 ， 在 单个 PC 上 运行 R 程 序 来 处 理应 该 没有 问题 。 如 果 你 有 兴趣 分 析 大 数据 ， 本 书 将 用 几 章 的 篇 幅 讨 
论 在 云 环境 中 的 R 和 3park， 你 可 以 在 这 些 章 中 看 到 如 何 处 理 分 布 在 许多 不 同 计算 机 上 的 大 型 数据 集 。 


谈 到 本 书 中 使 用 的 数据 集 ， 我 不 想 使 用 那些 你 经 常 看 到 的 、 被 人 们 反复 分 析 的 数据 集 。 其 中 一 些 数 据 集 的 确 非常 适合 用 来 演 
示 拉 术 ， 但 我 想 要 一 些 新 的 东西 。 然 而 ， 我 没有 看 到 多 少 我 认为 对 本 书 有 用 的 数据 。 有 些 数 据 来 源 不 明 ， 有 些 需 要 正式 的 使 用 许 
可 ， 有 些 缺 少 好 的 数据 字典 。 所 以 ， 在 许多 章节 中 ， 我 最 终 使 用 R 中 的 模拟 技术 生成 目 己 的 数据 。 我 完 得 这 是 一 个 不 错 的 选择 ， 
因为 借 此 机 会 我 能 够 介绍 一 些 可 以 在 工作 中 使 用 的 数据 生成 技术 。 


我 使 用 的 数据 涵 芋 了 广泛 的 范围 ， 包 括 市 场 营 销 、 零 售 和 医疗 保健 应 用 。 我 本 来 希望 能 增加 一 些 财务 万 面 的 预测 分 析 用 例 ， 
但 时 间 不 够 用 了 。 也 许 我 会 把 这 方面 的 内 容留 到 另 一 本 书 中 去 讲 ! 


本 书 主 要 内 容 


第 1 章 从 介绍 预测 分 析 的 友 展 历史 开始 ， 然 后 讨论 预测 分 析 从 业 人 员 的 一 些 不 同 角色 ， 并 描述 他 们 从 事 的 行业 。 接 下 来 讨论 
在 PC 上 组 织 预测 分 析 项 目的 方法 ， 介 绍 R 语 言 ， 并 以 简短 的 预测 模型 为 例 结束 该 章 。 


第 2 章 讨 论 如 何 将 预测 模型 的 开 上 友 过 程 组 织 成 几 个 阶段 ， 每 个 阶段 都 有 不 同 的 目标 ， 如 探索 和 问题 定义 ， 最 后 是 预测 模型 的 
实际 开发 。 该 章 讨论 两 种 重要 的 分 析 方 法 : CRISP-DM 和 SEMMA。 在 该 音 中 贯穿 了 一 些 示例 代码 ， 以 展示 一 些 方法 的 核心 思 


想 ， 希望 水 不 会 感到 枯燥 。 


第 3 草 介绍 可 以 将 目 己 的 输入 数据 引入 到 R 程 序 中 的 各 种 方法 。 该 章 还 讨论 使 用 标准 SQL 函 数 和 R dplyr 包 的 各 种 数据 预 处 理 
万 法 。 没 有 输入 数据 ? 疫 问题 。 该 章 将 展示 如 何 使 用 R 语 言 的 wakefield 包 生成 你 目 己 的 模拟 数据 。 


第 4 章 从 对 有 监督 算法 和 无 监督 算法 的 讨论 开始 。 该 章 的 其 余部 分 集中 在 回归 算法 ， 它 是 一 种 代表 性 的 有 监督 算法 。 你 将 了 
解 如 何 解释 回归 算法 的 输出 ， 如 模型 系数 和 残 关 图 。 访 章 长 至 提供 一 个 交互 陈 游 戏 ， 利 用 交互 测试 ， 看 看 你 是 售 能 够 状 别 一 系 询 
的 残 和 关 是 不 是 随机 的 。 


第 5? 章 重 点 讨论 另外 三 种 广泛 使 用 的 核心 预测 算法 ， 而 且 把 它们 与 回归 结合 起 来 ， 可 用 于 解决 许多 (可 能 是 大 部 分 ) 预测 分 
析 间 题 。 该 草 讨论 的 最 后 一 个 算 友 (支持 向 量 机 (SVM) ) 通常 用 于 诸如 非 结构 化 文本 之 类 的 高 维 数 据 ， 因 此 示例 代码 将 附 市 
使 用 一 些 客户 投诉 评论 的 文本 挖掘 技术 。 


第 6 草 讨论 一 种 称 为 生存 分 析 的 具体 建 模 技术 ， 并 展示 一 个 假设 的 客 己 营销 满意 度 和 保留 示例 。 我 们 还 将 深入 研究 利用 R 中 
的 抽样 功能 模拟 客户 选择 的 方法 。 


第 7 章 介 绍 天 联 规则 和 购物 篮 分 析 的 概念 ， 并 介绍 一 些 可 以 根据 在 线 零 售 商店 销售 的 各 种 数据 组 合 来 预测 未 来 销售 情况 的 技 
术 。 该 章 还 会 引入 一 些 文 本 分 析 技 术 和 一 些 聚 类 分 析 技 术 ， 用 来 将 各 种 客户 分 为 不 同 的 分 组 。 除 此 之 外 ， 你 将 学 到 一 些 数据 清理 
技术 ， 还 可 以 知道 如 何 生 成 一 些 有 趣 的 天 联 图 。 


第 8 章 介 绍 时 间 序 列 分 析 。 首 先 探讨 CMS 网 站 的 医疗 保健 注册 人 资料 。 接 下 来 定义 一 些 基本 的 时 间 序 列 概念 ， 如 简单 和 指数 移 
动 平均 线 。 最 后 ， 在 示例 代码 中 使 用 R 的 预测 软件 包 ， 顾 名 思 义 ， 它 可 以 帮助 你 执行 一 些 时 间 序 列 预测 。 


第 9 章 介 绍 SparkR， 它 是 使 用 R 访 问 大 型 Spark 聚 类 的 环境 ， 不 需要 安装 本 地 版 本 的 R。 该 章 还 会 引入 Databricks， 一 种 用 来 
针对 基于 Spark 的 大 数据 运行 R (以 及 Python、SQL 等 ) 的 基于 云 的 环境 。 该 章 还 介绍 使 用 Pima Indians 糖 尿 病 数据 库 作 为 参 
考 ， 将 小 型 数据 集 转 换 为 更 大 的 Spark 聚 类 的 技术 。 


第 10 章 展示 如 何 利 用 SparkR 和 Spark SQL 的 组 合 ， 使 用 加 载 到 Spark 中 的 Pima Indians 糖 尿 病 数据 ， 执 行 一 些 探索 性 数据 
分 析 。 我 们 将 使 用 一 些 特定 的 Spark 命 令 来 了 解 Spark 数 据 的 基础 知识 ， 这 些 命令 允许 我 们 过 滤 、 分 组 和 汇总 ， 并 将 Spark 数 据 


可 钢化 。 


第 11 章 先 介绍 一 个 使 用 Spark 聚 类 构建 的 逻辑 回归 模型 ， 进 而 对 机 器 学 习 进 行 前 述 。 我 们 将 学 习 如 何 将 Spark 数 所 分解 为 训 
练 数据 和 测试 数据 ， 运 行 逻辑 回归 模型 ， 然 后 评估 其 性 能 。 


第 12 章 教 你 如 何 使 用 Stop 和 Frisk 数 据 集 在 Spark 中 运行 决策 树 模型 。 你 将 学 习 如 何 将 一 些 聚 类 样本 提取 到 本 地 计算 机 中 
然后 运行 一 些 你 已 经 熟悉 的 非 Spark 算 法 来 克服 Spark MLIib 环 境 的 一 些 算法 限制 。 该 章 还 将 介绍 一 种 新 的 基于 规则 的 算法 
OneR， 并 演示 如 何在 Spark 中 混用 不 同 的 语言 ， 例 如 在 同一 个 笔记 本 中 使 用 % 魔 法 指令 将 R、SQL， 甚 至 Python 代码 混合 在 一 
起 。 

阅读 本 书 你 需要 什么 燥 识 


这 不 是 一 本 预测 分 析 的 入 门 书 ， 也 不 是 学 习 R 或 Spark 的 入 门 书 。 我 们 希望 读者 有 一 些 基础 的 R 数 据 操作 技术 的 知识 。 预 先 获 
取 一 些 了 预测 分 析 的 知识 也 是 有 用 的 。 如 前 所 述 ， 了 和 解 假设 检验 、 相 天性、 平均 值 、 标 准 偏 考 和 p 值 等 基本 统计 概念 也 有 助 于 你 阅 
读本 书 。 
本 书 的 读者 对 象 


本 书 适 用 于 已 经 接触 过 R， 并 且 正 在 寻求 学 习 如 何 开 友 企业 预测 分 析 解 决 方案 的 读者 。 此 外 ， 如 果 传 统 的 业务 分 析 师 和 经 理 
希望 扩展 一 些 使 用 开源 R 程 序 进行 预测 分 析 的 技能 ， 可 能 会 友 现 这 本 书 很 有 用 。 了 解 其 他 编程 语言 、 目 前 正在 进行 预测 分 析 实 
践 ， 或 希望 使 用 Spark 了 解 预 测 分 析 的 读者 ， 也 将 会 从 有 关 Spark 和 R 的 章节 中 获 益 。 


下 载 示 例 代码 和 彩 图 
在 GitHub 上 提供 了 本 书 的 代码 ， 网 址 是 : https://github.com/PacktPublishing/Practical-Predictive-Analytics。 


我 们 还 为 读者 提供 了 一 个 PDF 文件 ， 其 中 包含 本 书 中 使 用 的 截图 /图 表 的 彩 图 。 彩 图 将 帮助 你 更 好 地 了 解 输出 数据 中 的 变 
化 。 可 以 从 以 下 网 址 下 载 此 文 
件 : https://www.packtpub.com/sites/default/files/downloads/PracticalPredictiveAnalytics Colorlmages.pdf。 


第 1 章 ” 预测 分 析 入 | 


“我 们 相信 上 沉 ， 但 其 他 人 请 用 数据 说 话 。” 





Deming 


我 喜欢 预测 分 析 工 作 ， 也 喜欢 向 别人 解释 这 项 工作 ， 因 为 它 基 于 一 个 简单 的 概念 : 根据 历史 数据 预测 未 来 事件 的 概率 。 预 测 
分 析 的 历史 至 少 可 奶 漳 至 公元 前 650 年 。 在 一 些 早 期 的 例子 中 ， 古 代 巴 比 伦 人 试图 根据 云 的 外 观 和 光环 来 预测 短期 天 气 变化 : 参 
见 Weather Forecasting through the Ages，NASA。 


医学 上 对 疾病 进行 分 类 也 有 很 长 的 历史 。 古 巴比伦 国王 Adadapla-iddina 曾 经 发 布 命令 ， 要 求 收集 医疗 记录 汇集 成 《诊断 手 


册 》 (Diagnostic Handbook) 。 这 个 文集 中 的 一 些 预测 列 出 了 根据 患者 生病 的 天 数 及 其 脉搏 做 出 的 处 理 方案 (Linda Miner 
等 ，2014) 。 这 是 生物 信息 学 最 早 的 实例 之 一 ! 


后 来 ， 专 业 的 预测 分 析 在 保险 业 承 保 行业 开始 友 展 起 来 。 它 被 用 来 预测 与 海上 船只 保险 有 关 的 风险 
(https://www.lloyds.com/lloyds/about-us/history/corporate-history) 。 差 不 多 同一 时 间 ， 人 寿 保 险 公司 开始 预测 投保 客 
户 的 寿命 ， 以 便 设 定 最 合适 的 保费 率 。 


虽然 预测 的 想法 是 根源 于 早期 人 类 对 于 理解 和 分 类 的 需要 ， 但 是 直到 20 世 纪 和 现代 计算 机 的 出 现 ， 它 才 真正 洛 实 。 
在 20 世 纪 40 年 代 ， 除 了 帮助 美国 政府 破译 密码 之 外 ，Alan Turing 还 致力 于 最 初 的 人 机 对 抗 的 计算 机 象棋 算法 。 蒙 特 卡 罗 模 


拟 方法 起 源 于 曼哈顿 项 目的 一 部 分 ， 大 型 计算 机 通过 数 天 的 运算 以 确定 核 攻击 友 生 的 可 能 性 (Computing and the Manhattan 
Project, n.d) 。 


在 20 世 纪 50 年 代 ， 运 筹 学 (Operations Research，OR) 理论 出 现 了 ， 它 可 以 优化 两 点 之 间 的 最 短 距离 。 目 前 ， 这 些 技术 
被 诸如 UPS 和 亚马逊 等 公司 应 用 在 它们 的 物流 上 。 


非 数学 家 也 在 行动 。 在 20 世 纪 70 年 代 ， 心 脏 病 专家 Lee Goldman (当时 在 潜艇 上 工作 ) 花费 了 数 年 时 间 开 发 出 一 棵 有 效 的 
决策 树 ， 有 助 于 工作 人 员 确 定 是 人 否 需 要 为 了 帮助 胸痛 患者 ， 让 潜艇 浮 出 水 面 (Gladwell，2005) ! 


许多 这 些 例子 的 共同 点 是 ， 人 们 首先 观察 已 经 友 生 的 事件 ， 然 后 使 用 这 些 信息 进行 泛 化 ， 用 来 对 某 些 事件 将 来 友 生 的 可 能 性 
做 出 决策 。 伴 随 着 这 些 预测 ， 人 们 也 能 进一步 了 解 事件 的 因果 关系 ,以 及 问题 的 各 个 部 分 如 何 相 互 天 联 。 通 过 坚持 使 用 科学 的 手 
段 和 方法 论 ， 人 们 友 现 了 很 多 表象 乙 后 深层 的 原因 。 


最 重要 的 是 ， 这 些 例子 都 是 为 了 找到 当时 重要 有 目 经 常 友 生 的 实际 问题 的 解决 方案 ， 因 此 它们 都 是 独一无二 的 。 


1.1 -许多 行业 中 都 有 预测 分 析 


从 那 以 后 ， 人 们 已 经 走 了 很 长 的 路 ,分 析 解 决 万 案 的 实践 进一步 推动 了 许多 不 同行 业 的 友 展 。 互 联网 对 此 有 深远 的 影响 ， 人 
们 的 每 一 次 访问 都 被 记录 、 被 分 析 。 正 在 收集 和 存储 的 历史 数据 越 来 越 多 ， 其 中 有 些 甚至 只 需要 极 低 的 成 本 ， 比 以 往 任何 时 候 都 
{ 氏 。 这 一 事实 使 得 更 多 行业 开始 使 用 预测 分 析 。 


1.1.1 市 场 襄 请 中 的 也 测 分 析 


市 场 言 销 这 个 行业 ， 已 接受 PA (预测 分 析 ) 相当 长 一 段 时 | 间 了 。 市 场 膏 销 一 直 在 关注 如 何 争取 和 留 住 客 尸 ， 并 已 开 友 了 涉 
及 各 种 促销 活动 和 客 尸 接触 点 的 预测 模型 ， 所 有 这 些 模 型 的 目标 都 是 留 住 老 客 尸 ， 获 得 新 客 尸 。 这 一 点 在 有 些 营销 活动 中 非常 显 
而 易 见 ， 例 如 无 线 和 人 在线 购物 卡 ， 客 户 购 买 这 些 卡 是 因为 他 们 总 是 想 多 得 到 毕 优惠 。 


具体 来 说 ， 高 级 分 析 有 助 于 解决 这 样 一 类 问题 :如果 我 向 客 尸 提供 免费 送 货 以 及 10% 的 折扣 ， 那 么 这 相对 于 没有 免费 送 贷 ， 
但 是 有 15% 的 折扣 是 不 是 可 以 获得 更 多 的 收入 ? 对 客户 的 360 度 分 析 扩 大 了 与 客 尸 互动 的 方式 学 畴 ， 从 而 使 营销 组 合 和 归 因 建 模 
变 得 越 来 越 重要 。 可 提供 位 置信 息 的 设备 已 经 使 营销 预测 应 用 程序 能 够 利用 实时 数据 ， 当 客户 在 商店 中 时 ， 丈 能 及 时 给 出 推荐 。 


1.1.2 ”医疗 中 的 预测 分 析 


医疗 万 面 的 预测 分 析 最 早 源 于 临床 试验 ， 临 床 试验 使 用 精心 挑选 的 样品 来 测试 药物 和 治疗 的 疗效 。 然 而 ， 医 疗 行 业 所 做 的 远 
远 不 止 如 此 。 随 着 传感器 的 出 现 ， 预 测 分 析 可 以 利用 传 感 数 据 ， 以 监测 患 有 严重 疾病 的 患者 ， 并 在 病人 处 于 危险 状态 时 友 出 警 
报 。 医 疗 公司 现 在 可 以 预测 哪些 患者 会 遵照 医疗 机 构建 议 的 治疗 方案 执行 ， 哪 些 不 会 好 好 执行 ， 进 而 向 各 方 肥 出 早期 预警 信号 ， 
防止 可 能 出 现 的 并 友 症 ， 降 低 治 疗 总 费用 。 


1.1.3 ”其 他 行业 中 的 预测 分 析 


预测 分 析 的 例子 在 几乎 所 有 其 他 行业 中 都 能 够 找到 。 下 面 仅 仪 是 很 少 一 部 分 。 


“ 坎 许 检测 是 一 个 很 大 的 领域 。 金 融 机 构 能 够 通过 模式 识别 和 其 他 机 器 学 习 算 法 来 监控 所 有 客户 的 内 部 和 外 部 坎 诈 交易 ， 然 
后 向 客户 提醒 可 和 疑 活动 。 分 析 通 常 是 实时 执行 的 。 这 是 一 个 很 大 的 优势 ， 因 为 罪犯 可 能 非常 独 独 ， 欺 诈 手段 可 能 比 历史 分 析 领 先 


一 步 。 


“ 华尔街 计划 交易 。 这 种 交易 背 法 用 来 预测 日 内 高 点 和 低 点 ， 并 决定 何 时 买 入 和 卖 出 证 券 。 


: 体育 管理 分 析 能 够 预测 哪些 体育 赛事 会 有 最 高 的 上 座 率 ， 并 根据 观众 的 兴趣 来 制订 浮动 的 票 价 。 


. 在 棒球 中 ， 可 以 记录 投手 的 整 场 比赛 表现 数据 ， 然 后 进行 数据 分 析 。 传 感 器 也 可 以 附 在 手 避 上， 以 便 在 可 能 发 生 伤害 时 发 
出 警报 。 


台 


- 高 等 教育 : 


` 学 院 可 以 预测 下 一 学 期 可 能 有 多 少 学 生 和 哪些 学 生 入 学 ， 并 能 够 相应 地 规划 资源 。 这 是 一 个 正在 开始 面临 的 挑战 ， 许 多 学 


校 可 能 正在 考虑 2016 年 SAT 的 得 分 变化 如 何 影 响 入 学 。 
. 在 线 模块 的 基于 时 间 的 评估 可 以 帮助 教授 识别 学 生 可 能 存在 问题 的 领域 ， 并 定制 相应 的 个 人 教学 计划 。 
. 政府 : 


联邦 和 州 政 府 已 经 接受 了 开放 数据 的 概念 ， 并 向 公众 提供 了 更 多 的 数据 ， 使 公民 数据 科学 家 能 够 帮助 解决 严重 的 社会 和 政 


府 问题 。 
` 在 应 总 服务 、 交 通 安 全 和 医疗 方面 ， 数 据 分 析 的 应 用 潜力 是 非 第 积极 的 。 


尽管 这 些 行业 的 性 质 完 全 不 同 ， 但 预测 分 析 的 目标 通 冲 是 一 致 的 : 为 了 增加 收入 、 降 低 成 本 ， 或 追求 更 好 的 结果 。 


1.2 ”技能 和 角色 企 预测 分 析 中 都 很 重要 


想 要 成 功 地 进行 预测 分 析 ， 需 要 什么 近 巧 呢 ? 我 认为 需要 具备 以 下 三 种 基本 技能 。 


不 止 一 种 ， 可 以 由 你 和 预测 建 模 师 来 共同 决定 如 何 完 成 。 


I 


` 业务 技能 : 这 些 技能 是 与 利益 相关 方 团体 之 间 交 流 想 法 和 意见 所 需要 的 。 在 某 些 行业 工作 过 很 长 一 段 时 间 的 业务 分 析 师 和 
数据 分 析 师 已 经 非常 熟悉 各 自 的 业务 了 ， 预 测 分 析 项 目 越 来 越 多 地 要 求 他 们 参与 其 中 。 数 据 科 学 正在 成 为 一 项 团队 活动 ， 大 多 数 
项 目 都 需要 每 个 人 与 组 织 中 的 其 他 人 合作 、 总 结 调查 结果 以 及 具备 良好 的 演示 和 文档 技能 ， 这 些 都 很 重要 。 你 经 常会 听 到 和 业务 
技能 相关 的 领域 知识 术语 。 只 有 具备 一 定 的 领域 知识 ， 你 才能 将 特定 的 分 析 技 能 应 用 于 你 正在 (或 者 希望 ) 从 事 的 任何 业务 的 特 
定 分 析 问 题 中 。 在 解决 分 析 问题 时 ， 每 个 人 的 业务 都 有 些 细微 的 差别 。 如 果 你 没有 时 间或 者 意愿 去 学 习 手 头 所 有 问题 的 内 部 工作 
原理 ， 那 你 就 要 和 了 解 这 些 事情 的 人 合作 。 这 就 是 一 个 优秀 团队 的 开端 ! 


. 数据 存储 /提取 转换 和 加 载 (EExtract Transform and Load，ETL) 技能 : 这 一 项 主要 是 指 关 于 数据 提取 和 将 这 些 数据 存储 在 
一 个 关系 型 或 非 关 系 型 NoSQL 中 的 专业 知识 。 从 历史 角度 来 看 ， 这 些 任务 只 在 数据 仓库 中 处 理 。 但 是 现在 随 着 大 数据 时 代 的 到 
来 ， 了 解数 据 存 储 的 复杂 性 ， 以 及 组 织 数 据 存 储 的 最 佳 方法 的 专家 开始 出 现 。 


相关 工作 技能 和 术语 


除了 预测 分 析 领 域 的 术语 ， 还 有 其 他 一 些 高 度 相关 的 术语 。 


“ 预测 建 模 : 具体 来 说 就 是 使 用 数学 /统计 模型 预测 因 变 量 或 目标 变量 的 可 能 性 。 如 果 没 有 底层 模型 ， 你 仍然 可 以 预测 ， 但 


是 它 就 不 能 叫 作 预 测 模 型 。 


人 工 智 能 (AI) : 关于 机 器 如 何 理解 并 解决 问题 的 含义 宽泛 的 术语 。 人 工 智 能 的 早期 起 源 于 神经 网 络 。 


当 
加 


器 学 习 : 人 工 智 能 的 一 个 子 集 。 专 门 研究 机 器 如 何 自动 地 从 数据 中 学 习 ， 通 党 试图 重复 人 类 的 决策 或 最 优化 决策 。 提 到 
机 器 学 习 ， 每 个 人 都 知道 Watson 在 Jeopardy 节 目 中 击败 了 两 个 人 类 对 手 。 


` 数据 科学 : 数据 科学 的 概念 包含 预测 分 析 ， 但 也 通过 编码 增加 了 算法 开发 ， 并 且 通 过 可 视 化 提供 了 良好 的 数据 展示 能 力 。 


数据 工程 : 数据 工程 集中 在 数据 提取 和 数据 准备 过 程 中 ， 使 原始 数据 转化 为 适合 分 析 的 形式 。 系 统 架构 的 知识 对 此 十 分 重 
要 。 数 据 工程 师 通常 会 生成 预测 分 析 师 (或 数据 科学 家 ) 使 用 的 数据 。 


. 数据 分 析 师 /业务 分 析 师 / 领 域 专家 : 这 是 一 个 涵盖 性 术语 ， 指 那些 精通 手中 的 业务 原理 的 人 ， 以 及 少数 有 能 力 分 辨 哪些 数 
据 可 能 有 意义 、 哪 些 可 能 没有 意义 的 人 。 


. 统计 学 : 推理 的 经 典 形 式 ， 通 稼 利用 假设 检验 来 完成 。 统 计 学 也 是 机 器 学 习 中 概率 分 布 的 基础 ， 与 预测 分 析 和 数据 科学 窗 
切 相 关 。 


1.3 ”预测 分 析 软 件 


最 初 ， 预 测 分 析 是 手动 进行 的 ， 统 计 人 员 在 大 型 机 上 使 用 各 种 编程 语言 (如 FORTRAN) 来 完成 这 一 任务 。 有 些 语言 直到 | 今 
天 仍然 很 流行 。 例 如 ，FORTRAN 仍 然 还 是 性 能 最 高 的 语言 之 一 ， 并 且 内 存 占用 少 。 因 此 尽 省 它 在 预测 模型 开发 方面 不 再 像 其 他 


语言 那样 广泛 使 用 ， 但 它 仍然 可 以 用 于 在 生产 环境 中 实现 模型 。 


现在 ， 已 经 有 了 很 多 可 以 使 用 的 预测 分 析 软 件 ， 许 多 忠实 的 用 户 坚 持 使 用 他 们 所 选 的 软件 。 事 实 上 ， 为 了 解决 特定 类 型 的 预 
测 分 析 问 题 ， 这 些 软件 在 功能 上 有 一 定 程度 的 重 姥 ， 而 且 它 们 的 目标 无 疑 是 相同 的 。 一 旦 你 掌握 了 和 在 一 个 软件 包 中 预测 分 析 的 使 
用 方法， 那么 把 你 的 扩 能 转 用 到 另 一 个 软件 包 上 是 相当 容易 的 。 


1.3.1 开源 软件 


开源 软件 强调 敏捷 开 友 和 社区 共享 。 当 然 ， 开 源 软 件 是 免费 的 ， 但 是 使 用 免费 软件 也 具有 总 拥有 成 本 (Total Cost Of 
Ownership，TCO) 。TCO 包 括 在 一 段 时 间 内 和 软件 成 本 有 关 的 一 切 因素 : 不 仅 包 括 软 件 本 身 的 价格 ， 还 包括 培训 、 基 础 设施 
设置 、 维 护 、 人 员 成 本 以 及 与 产品 快速 升级 和 开发 产品 中 存在 的 开 友 周期 有 关 的 一 切 支 出 。 


1.3.2 ”财源 软件 


闭 源 (或 者 专 有 ) 软件 (如 SAS 和 SPSS) 在 预测 分 析 中 处 于 领先 地 位 ， 并 且 一 直 延 续 至 今 ， 超 越 了 传统 的 统计 和 机 器 学 习 
领域 。 闭 源 软件 强调 稳定 性 、 更 好 的 支持 和 安全 性 ， 包 括 更 出 色 的 内 存 管理 ， 对 某 些 公司 来 说 ， 我 所 强调 的 这 几 点 都 是 重要 的 因 
素 . 


le 和 和 


现在 有 很 多 关于 开源 软件 好 还 是 闭 源 软件 好 的 争论 。 我 的 预测 是 ， 它 们 会 和 平 共 存 ， 而 不 是 互相 取代 。 数 据 共享 和 通用 API 
将 变 得 更 加 普遍 。 开 源 软 件 和 闭 源 软件 都 会 在 数据 架构 中 拥有 目 己 的 位 置 ， 并 且 对 一 个 公司 来 说 ， 这 样 的 生态 系统 才 是 合理 的 。 
每 个 公司 都 会 强调 某 些 因素 ,开放 式 和 封闭 式 的 软件 系统 都 在 不 断 完善 上 自己。 所以， 无 论 学 习 哪 一 个 ， 都 不 是 非 此 即 彼 的 决定 。 
预测 分 析 ， 并 不 是 每 秒 都 在 关心 你 使 用 什么 软件 。 请 接受 开源 和 闭 源 软件 各 目的 优势 。 如 果 你 接受 这 上 后， 那么 肯定 会 获得 与 不 同 
的 公司 合作 以 及 使 用 不 同 技术 的 机 会 。 


1.4 ”其 他 有 用 的 工具 


人 类 不 仅仅 依靠 面包 一 种 食物 而 活 ， 所 以 除了 学 习 R 语 言 忆 外， 还 需要 学 习 更 多 的 工具 ， 以 便 提 高 分 析 技 能 。 


SQL: 不 管 选择 在 哪个 语言 /软件 包 / 环 境 中 工作 ，SQL 都 是 一 个 很 有 价值 的 工具 。 事 实 上 ， 每 一 个 分 析 工 具 都 有 一 个 SQL 
接口 ， 了 解 如 何 优化 SQL 查询 无 疑 会 提高 你 的 工作 效率 ， 特 别 是 如 果 从 SQL 数据 库 直 接 进 行 大 量 数据 提取 的 话 。 如 今 常见 的 思路 
尽 可 能 在 数据 库 中 进行 预 处 理 ， 所 以 如 果 你 要 在 数据 库 (如 MySQL、PostgreSQL、Oracle 或 者 Teradata) 中 做 大 量 的 提取 工作 ， 
习 如 何在 本 地 架构 中 优化 查询 是 一 件 很 有 用 的 事 。 


怠 
元 


在 R 语 言 中 ， 有 几 个 SQL 包 可 用 于 与 各 种 外 部 数据 库 进 行 对 接 。 我 们 将 使 用 sqldf 包 ， 这 是 一 个 使 用 广泛 的 R 语 言 包 ， 用 于 和 


R 语 言 数 据 帧 进行 交互 。 还 有 其 他 的 语言 包 专 | ] 为 你 将 要 使 用 的 特定 数据 库 而 定制 。 


:Web 提取 工具 : 并 非 每 个 数据 源 都 来 自 数 据 仓 库 。 从 互联 网 上 提取 数据 的 API 知 识 还 是 很 有 必要 知道 的 。 这 方面 常用 的 工 


具 包 括 Curtl 和 Jsonlite。 


" 电子 表格 : 尽管 存在 一 些 问题 ,但 电子 表格 通常 是 进行 快速 数据 分 析 的 最 快 方式 ， 更 重要 的 是 ， 它 能 让 你 和 他 人 分 享 分 析 
结果 ! R 语 言 为 电子 表格 提供 了 多 个 接口 ， 但是， 如 果 你 在 那些 大 量 使 用 这 些 技能 的 公司 工作 ， 学 习 独 立 的 电子 表格 技能 ， 如 针 
对 应 用 程序 的 数据 透视 表 和 Vittual Basic， 会 给 你 带 来 工作 上 的 优势 。 


数据 可 视 化 工具 : 数据 可 视 化 工具 对 增加 分 析 的 冲击 力 和 简洁 地 封装 复杂 信息 非常 有 用 。 虽 然 R 语 言 的 可 视 化 工具 很 优 


秀 ， 但 是 并 不 是 每 个 公司 都 会 使 用 R 语 言 。 可 以 学 习 一 些 第 三 方 的 可 视 化 工具 ， 如 D3.j$s，Google Chatts ，Qlikview 或 者 Tableau 。 


- 大 数据 、Spatk、Hadoop、NoSQL 数 据 库 : 从 这 些 框 架 中 提取 和 分 析 数 据 的 需求 越 来 越 多 ， 至 少 从 这 点 来 看 ， 了 解 这 些 技 
术 变 得 越 来 越 重 要 。 许 多 软件 包 都 有 和 Hadoop 直 接 对 话 的 API， 可 以 在 本 地 环境 中 运行 预测 分 析 ， 也 可 以 提取 数据 到 本 地 再 完成 
分 析 。 


1.4.1 ”超越 基础 知识 
考虑 到 预测 分 析 的 空间 是 如 此 之 大 ， 一 旦 你 了 解 了 基本 概念 ， 就 可 以 问 问 自己 ， 哪 些 领域 的 预测 分 析 是 你 真正 感 兴趣 的 ， 你 


想 专 攻 哪 些 领域 。 刚 开始 ， 学 习 一 切 你 所 关心 的 预测 分 析 的 内 容 是 很 好 ,但 是 因为 你 可 能 是 某 个 行业 或 者 技术 方面 的 专家 ， 所 以 
最 终 你 会 回 过 头 来 想 这 两 个 问题 。 想 要 专攻 的 领域 ， 可 能 会 是 研究 、 算 法 开 及 ， 或 者 甚 全 是 管理 分 析 团 队 。 


1.4.3 ”数据 工程 


如 果 你 参与 较 多 的 是 数据 工程 方面 的 工作 ， 可 以 多 天 注 数 据 清 理 ， 要 能 够 集成 各 种 数据 源 ， 以 及 多 天 注 完 成 数据 清理 工作 所 
需 的 工具 。 


1.4.4 管理 


如 果 你 是 一 名 管理 者 ， 可 以 关注 模型 开 有 友 、 测 试 与 控制 、 元 数据 ， 并 且 内 遍 层 管理 人 员 展 示 相 天 结果 ， 以 此 说 明 投 资 的 价值 


或 者 收 荔 。 


1.4.5 效 据 科 学 团队 


当然 ， 预 测 分 析 正 变 得 更 像 是 一 个 团队 项 目 ， 而 不 是 一 种 个 体 努 力行 为 ， 并 且 数 据 科学 团队 是 非 营 活跃 的 。 天 于 数据 科学 团 
队 的 构成 已 经 有 很 多 介绍 ， 其 中 大 部 分 可 以 简化 成 我 前 面 概括 的 3 项 基本 技能 。 


1.4.6 看待 预 则 分 析 的 两 种 不 同方 陈 


不 同行 业 对 预测 分 析 的 目标 有 不 同 的 解释 。 例 如 ， 社 会 科学 和 市 场 营销 想 要 了 解 的 是 预测 分 析 模 型 中 的 因素 ， 如 果 模型 可 以 
馈 解 释 得 足够 清楚 ， 那 忒 可 以 牺牲 挥 一 点 准确 性 。 另 一 方面 ， 黑 合股 市 交易 模型 更 感 兴趣 的 是 减少 错误 交易 的 数量 ， 并 且 在 当天 
结束 时 核算 收益 和 损失 ， 并 不 天 心 交 易 算法 中 哪 一 部 分 起 了 作用 。 结 果 是 准确 性 更 为 重要 。 


基于 你 要 处 理 的 某 个 特定 问题 ， 来 看 看 两 种 不 同 的 分 析 思 维 怎 样 影响 预测 分 析 过 程 。 


1) 最 小 化 预测 错误 目标 : 这 是 机 器 学 习 中 一 个 非常 常见 的 用 例 。 最 初 的 目标 是 使 用 适当 的 算法 做 预测 ， 以 减少 预测 错误 。 
如 果 选 择 的 算法 不 对 ， 算 法 最 终 会 失败 ， 并 且 需 要 持续 优化 产生 新 的 最 优 算法 。 如 果 只 是 机 械 地 执行 计算 而 不 理解 模型 ， 肯 定 会 
导 公 失败 的 结果 。 某 些 模 型 ,特别 是 市 有 多 个 变量 的 优化 模型 ， 可 以 具备 很 高 的 预测 率 ， 但 是 在 很 多 情况 下 却 不 稳定 。 如 果 没 有 
深入 理解 模型 ， 很 难 对 数据 输入 的 变化 做 出 正确 有 反应。 


2) 理解 模型 目标 : 理解 模型 目标 由 科学 万 法 产生 ， 还 要 和 假设 检验 的 概念 尝 密 关联 。 可 以 通过 一 些 具 体 的 模型 (如 回归 树 
和 决策 树 ) 来 实现 ， 使 用 其 他 模型 ， (如 支持 向 量 机 (SVM ) 模型 和 神经 网 络 模 型 ) 则 更 加 困难 。 理 解 模 型 范式 时 ， 理 解 因果 
天 系 或 影响 比 优 化 相关 性 更 为 重要 。 通 常 ， 理 解 模型 的 预测 率 较 低 ， 但 是 知道 更 多 关于 模型 各 个 部 分 的 因果 关系 以 及 它们 是 如 何 
关联 的 ， 则 更 有 优势 。 例 如 ， 依 赖 于 理解 人 类 行为 的 行业 要 强调 理解 模型 的 目标 。 这 种 倾 同 的 一 个 限制 是 ， 我 们 可 能 倾 同 于 丢 茎 
那些 还 没 能 被 立刻 理解 的 结果 。 接 受 一 个 预测 能 力 较 低 的 模型 需要 一 定 的 上 自律 性 。 不 过 ， 你 反而 可 以 因此 保证 模型 的 稳定 性 。 


当然 ， 之 前 的 例子 前 明了 两 种 截然 不 同 的 方法 。 可 以 两 全 其 美 地 组 合 模型 ， 应 该 是 我 们 要 努力 争取 的 。 所 以 ， 终 极 模 型 的 目 


标 是 : 
该 模型 的 预测 误差 可 接受 
` 随 着 时 间 的 推移 ， 该 模型 是 稳定 的 ; 
:该 模型 需要 维护 的 成 本 最 小 ; 
- 该 模型 很 简单 ， 便 于 理解 和 解释 。 


稍 后 你 会 了 解 这 与 偏差 / 方 磊 的 权 稀 有关。 


1.5 R 


本 书 中 大 部 分 代码 示例 都 是 用 R 语 言 编 写 的 。 阅 读本 书 的 先决 条 件 是 ， 我 们 假设 你 具备 基本 的 R 语 言 知 识 ， 以 及 对 统计 有 一 
定 的 认识 。 如 果 你 已 经 知道 R 语 言 ， 可 以 跳 过 这 一 证 ， 但 为 了 完整 性 我 还 是 想 在 此 讨论 一 下 。 


R 语 言 源 于 20 世 纪 70 年 代 出 现 的 S 语 言 。 但 是 R 语 言 已 经 超越 了 原 有 的 核心 包 ， 成 为 完全 可 以 为 预测 分 析 提 供 支持 的 语言 。 


虽然 R 语 言 是 统计 学 家 为 了 他 们 做 统计 学 研究 而 孕育 产生 的 ， 从 早期 开始 ， 它 也 已 经 走 过 一 段 漫 长 的 岁月 。R 语 言 的 优势 来 
目 它 的 包 系 统 ， 它 使 得 人 们 能 开发 定制 化 的 或 者 增强 的 功能 ， 并 且 关 联 到 核心 系统 。 


虽然 最 初 的 R 语 言 系统 在 统计 和 数据 挖掘 方面 已 经 够 用 了 ， 但 是 Ri 井 言 的 一 个 重要 目标 是 通过 用 户 编写 、 页 献 的 包 来 增强 其 
系统 。 在 撰写 本 书 时 ，R 语 言 系统 已 经 包含 超过 10 000 个 包 。 有 些 包 质量 很 好 ， 有 的 包 则 质量 一 般 。 因 此 ， 我 们 的 目标 是 找到 能 


够 市 来 最 大 价值 的 真正 有 用 的 包 . 


大 多 数 (如 果 不 是 全 部 ) R 语 言 包 可 以 用 于 解决 你 所 遇 到 的 最 冲 见 的 预测 分 析 任 务 
别 的 任务 ， 很 有 可 能 R 语 言 社区 的 人 也 遇 到 了 类 似 的 问题 总 
那个 人 最 有 可 能 残 是 你 目 己 。 


1.2.1 CRAN 


呈 人 D 五 一 
综合 Rj 召 言 


值 的 包 大 概 是 什么 样 的 ， 可 以 坦 看 CRAN 维 护 的 Task Views 部 分 


https://cran.r-project.org/web/views/ 


1.5.2 ” 安 半 凡 召 言 


[和 
PS SN 一 一 
安装 Ri 语言 


通常 可 以 从 CRAN 网 站 直接 下 载 软件 


1) 导航 到 https://cran.r-project.org/。 


2) 安装 和 你 的 操作 系统 匹配 的 Ri 语言 版 本 。 请 阅读 有 关 下 载 特定 版 本 的 任何 说 明 。 例 如 ， 如 果 你 是 
装 R 语 言 ， 你 可 能 还 需要 安装 XQuartz， 这 样 图 形 才能 正确 显示 和 演 染 。 


小 和 定 


一 个 Mac 用 户 ， 除 了 安 
1.5.3 


其 他 安 半 R 语 言 的 方法 


虽然 直接 从 CRAN 网 站 安装 R 语 


二 
瑟 


是 大 多 数 人 会 继续 使 用 的 方式 ,但 是 我 想 说 一 些 其 他 安 滚 R 语 
本 地 机 器 时 ， 这 些 方法 通 单 都 比较 有 效 。 


一 :一 


号 


的 方法 。 当 你 不 大 常 使 用 
` 虚拟 环境 : 有 几 种 方法 可 以 在 虚拟 环境 中 安装 RR 语言 


. VirtualBox 或 者 VMware: 虚拟 环境 有 利于 建立 受 保护 的 环境 并 且 加 载 预 先 安装 好 的 操作 系统 和 软件 包 
处 ， 例 如 有 利于 隔离 测 斌 区域， 并且 当 你 不 希望 安装 R 语 言 


。 这 样 做 有 一 些 好 
R 语 言 占 据 机 器 上 额外 空间 的 时 候 ， 这 个 方法 可 以 满足 需求 。 
* Docket: Docket 就 像 一 个 虚拟 机 ， 但 是 比较 轻 量 级 ， 因 为 它 不 是 去 模拟 一 个 完整 的 操作 系统 ， 而 是 仅 模拟 所 需 的 进程 。 


在 基于 云 的 环境 中 安装 R 语 言 ， 有 几 种 方法 。 基 于 云 的 环境 非常 适合 不 直接 在 本 机 上 工作 的 场景 。 


` AWS/Azure: 这 是 3 个 非常 流行 的 环境 。 使 用 基于 云 的 环境 的 原因 和 使 用 虚拟 环境 的 原因 类 似 ， 不 过 也 有 一 些 其 他 的 优 
点 : 例如 具有 更 强 的 能 力 处 理 超大 数据 集 和 使 用 更 多 内 存 。 所 有 之 前 提 到 过 的 方法 都 需要 通过 订阅 服务 来 使 用 ， 只 不 过 是 提供 了 


免费 的 层 来 启动 。 学 习 使 用 R 语 言 和 SpatrkR 语 言 来 学 习 预 测 分 析 时 ， 我 们 会 在 后 面 的 章节 中 深入 探讨 Databricks。 
- 基于 Web: 基于 Web 的 平台 对 于 学 习 R 语 


™ 
-一 


R-Web、Jupytetr、 了 Tutotialspoint 以 及 Anaconda Cloud。 


和 尝试 快速 编程 及 分 析 都 有 好 处 。R-Fiddle 是 一 个 不 错 的 选择 ， 不 过 还 可 以 选择 


档案 网 络 (CRAN) 是 一 个 关键 的 网 站 ， 其 中 包括 R 语 言及 布 版 、 二 进 制 文件 、 文 档 以 及 包 。 为 了 知道 对 你 有 价 


如 果 你 遇 到 一 个 不 适用 于 任何 已 仓 在 类 
当然 ， 总 有 人 可 能 正在 开 友 一 个 包 刚 好 解决 你 想 要 解决 的 问题 


题 。 不 过 


` 命令 行 : 有 人 语言 可 以 完全 从 命令 行 运行 。 当 有 语言 通过 命令 行 运行 时 ， 通 第 会 加 上 其 他 Linux 工 具 ， 如 cutl、grep、awk 以 及 
各 种 各 样 的 定制 化 文本 编辑 器 ， 如 Emacs Speaks Statistics (ESS) 。 当 进程 需要 通过 操作 系统 直接 进行 自动 化 运行 和 调度 时 ， 通 党 


R 语 言 会 在 生产 模式 下 以 命令 行 方式 运行 。 


上 


1.7 图形 用 户 界 面 


与 许多 语言 文字 和 知识 友 现 系统 类 似 ，R 语 言 通过 命令 行 司 动 。 然 而 ， 预 测 分 析 师 倾向 于 使 用 图 形 用 户 界 面 (GUI) ， 并 且 
对 于 3 种 不 同 的 操作 系统 (Mac、Windows 和 Linux) 可 以 有 不 同 的 选择 。 每 一 个 系统 都 有 其 优 操 ， 当 然 也 存在 一 些 偏好 问题 。 


内 存 始 终 是 R 语 言 需 要 考虑 的 问题 ， 如 果 这 是 你 最 关心 的 问题 ， 可 能 希望 使 用 更 简单 的 图 形 用 尸 界面 ， 比 如 Ri 语言 内 置 的 图 
形 用 尸 界 面 。 


如 果 你 想 要 完全 控制 并 且 加 入 一 些 生产 工具 ， 可 以 选择 RStudio， 这 是 一 个 成 熟 的 图 形 用 户 界面 ， 你 可 以 通过 它 来 实现 版 本 
控制 存储 库 。RStudio 还 有 一 些 好 用 的 功能 ， 如 代码 目 动 完成 。 


R 语 言 措 令 调 度 器 (Rcemdr) 和 Rattle 独 特 的 功能 是 ， 它 们 提供 了 一 份 功能 选择 单 ， 可 以 引导 用 户 点 击 常见 的 统计 和 数据 控 
掘 任务 的 命令 。 它 们 都 是 代码 生成 器 。 这 是 一 种 从 头 开始 学 习 R 语 言 的 方法 ， 你 可 以 使 用 功能 选择 单 来 完成 任务 ， 然 后 查看 每 一 
个 特定 任务 代码 生成 的 方式 。 如 果 你 对 使 用 Rattle 进 行 预测 分 析 感 兴趣 ， 我 曾经 写 过 一 个 有 天 于 结合 Rattle 使 用 Ri 语言 的 教程 ， 
可 以 在 《预测 分 析 实 践 与 医学 决策 系统 》 (Practical Predictive Analytics and Decisioning Systems for Medicine) 的 教程 音 
分 找到 ， 本 章 末 尾 也 会 提 到 这 部 分 内 容 。 


RCmdr 和 RSstudio 都 提供 了 图 形 用 户 界面 ， 可 以 和 Windows、Apple 以 及 Linux 操 作 系 统 兼容 ， 所 以 我 会 在 本 书 中 利用 
RCmdr 和 RStudio 进 行 举例 。 不 过 要 记 住 的 是 ， 它 们 都 只 是 用 尸 界 面 ， 而 不 是 R 语 言 本 身 ， 所 以 应 该 很 容易 粘贴 代码 示例 到 其 他 
的 图 形 用 户 界 面 。 具 体 使 用 哪 一 个 图 形 用 户 界 面 ， 可 以 根据 你 的 喜好 来 决定 。 


1.8 RStudio 入 门 


R 语 言 安装 完成 后 ， 点 开 浏 览 器 ， 通 过 RStudio 网 站 (https://www.rstudio.com/) 找到 下 载 页 面 ， 安 六 适合 你 的 操作 系统 
的 RStudio 可 执行 文件 。 


点 击 RStudio 按 钮 ， 启 动 程序 。 


程序 启动 初始 有 3 个 平 铺 的 窗口 ， 如 以 下 截图 所 示 。 如 果 布 局 和 展示 的 不 完全 一 致 ， 下 一 节 将 展示 如 何 通 过 重新 排列 布 
局 ， 保 持 和 本 章 所 示 截 图 一 致 。 


~/Tmp - RStudio 
File Edit Code View Plots Session Build Debug Tools Help 
17| < ”| 图 | 名 | GC | 疙 Go to file/fundion 


Environment | History | Files | Plots | Help 站 Console ~rmpy OO 


Import Datasetv 三 List ve 二 1 
登 昌 wi . \ 过 | © : R version 3.2.5 (2016-04-14) -- “Very, Very Secure Dishes 
二 Global Environment~ (Q | copyright (Cc) 2016 The R Foundation for statistical Computing 
Platform: x86_64-w64-mingw32/x64 (64-bit) 


R is free software and comes with ABSOLUTELY NO WARRANTY. 
You are welcome to redistribute it under certain conditions. 
Type “license()' or “licence()" for distribution details. 


Environment is empty 


R is a collaborative project with many contributors. 
Type “contributors()”for more information and 
"Citation()”on how to cite R or R packages in publications. 


Type “demo() ”for some demos, “help()” for on-line help, or 
"help.start()”for an HTML browser interface to help. 


Type 'qO" to quit R. 


> | 


lI|A 





1.8.1 重新 布局 以 保持 和 示例 一 至 


参照 以 下 步骤 重新 布局 窗口 。 


\ 


1) 从 顶部 导航 选择 Tools 一 Global Options 一 Pane Layout; 

2) 选择 4 个 象限 中 每 个 象限 的 下 拉 箭 头 ， 将 每 个 面板 的 标题 更 改 为 如 下 图 所 示 : 
: 确保 左上 角 方 框 中 的 Envitonment->Histoty 一 Files 一 Plots 和 Help 都 被 选中 ; 
确保 左下 骨 方 框 中 的 Viewer 被 选中 ， 
选择 右 下 角 方 框 中 的 Console; 
选择 右上 角 方 框 中 的 Source; 

3) 后 击 OK。 


更 改 生效 之 后 ， 布 局 应 该 会 更 接近 于 先前 所 示 的 布局 。 不 过 ， 可 能 不 会 完全 相同 。 大 部 分 取决 于 你 正在 使 用 的 RStudio 版 
本 ， 以 及 你 可 能 已 经 安 半 的 软件 包 ，。 


Choose the layout of the panes In RStudio by selecting from the controls In each 
quadrant. 





Environment, History, Files, Plots, ™ 


| Environment 


MM History 
回 Files 
Appearance MM Plots 
\ MM Connections 
MPackages 
Pane Layout 回 Help 
怖 四 Build 
四 vcs 
人 [Viewer 
ms 
[| Environment 
L | History 
Sweave 口 Fle 
名 口 plots 
Spelling [| Connections 
| | packages 
痢 L |Help 
GIYSVN LL] Build 
Lvcs 
MM] Viewer 


Publishing 





Ce CE CR 


1.8.2 ”部 分 重要 面板 的 简要 描述 


* Soutce 面 板 用 于 编写 代码 和 保存 程序 。 代 码 创 建 后 你 可 以 使 用 File 一 Save 将 代码 保存 成 一 个 外 部 文件 ， 用 File 一 Open 找 到 已 


经 保存 的 代码 。 


如 果 是 第 一 次 安装 RStudio， 第 4 个 面板 可 能 什么 都 不 会 展示 。 不 过 当 你 创建 新 的 程序 〈 接 下 来 会 在 本 章 中 介绍 ) ， 这 个 面板 


就 会 出 现在 右上 角 象 限 。 


Console 面板 提供 了 程序 运行 后 有 关 程 序 的 重要 反馈 和 信息 。 它 会 告诉 你 发 生 了 语法 问题 或 错误 人 信息。 检查 Console 以 确保 


得 到 想 要 的 结果 ， 确 保 Console 没 有 错误 信息 ， 这 始终 都 是 一 个 好 习惯 。Console 还 是 展示 程序 的 很 多 输出 的 地 方 。 


.我们 会 非常 依赖 View 面 板 。 该 面板 显示 了 使 用 R 语 言 View 命 令 


运行 过 的 格式 化 输出 。 


Environment 一 History 一 Plots 面 板 是 一 个 多 功能 面板 ， 该 面板 会 根据 面板 布局 对 话 框 中 被 选中 的 标签 来 变化 功能 。 例 如 ， 
所 有 R 语 言 指令 产生 的 图 都 会 被 展示 在 Plots 标 签 下 。 帮 助 就 是 选择 Help 标 签 的 点 击 操作 。 还 有 一 个 有 用 的 标签 ， 叫 Packages， 当 
一 个 指定 的 软件 包 被 选中 ， 它 会 目 动 载 入 软件 包 。 


1.8.3 ”创建 新 项 目 


设置 好 布局 之 后 ， 按 照 以 下 步 又 继续 创建 一 个 新 的 项 目 。 
通过 以 下 步骤 创建 一 个 新 项 目 : 

1) 找到 菜单 栏 ， 在 屏幕 左上 和 角 的 图 标 之 上 ; 

2) 点 击 File， 再 点 击 New Project; 


3) 在 下 一 个 屏幕 选择 Existing Directory: 


New Project 


Create project from: 


New Directory 


Start a project In a brand new working directory 


Existing Directory 
Associate a project with an existing working directory 


Version Control 
Checkout a project from a version control repository 


Cancel 





4) 就 会 出 现 以 下 画面 : 





Create Project from Existing Directory 


Project working directory: 


| 
Dopen in new session (create Project [ Cancel | 


5) Project working directory 初 始 显示 波形 符 (~ ) 。 代 表 项 目 会 创建 在 你 当前 所 在 的 路 径 下 ; 





6) 指定 路 径 首先 选择 Browse， 然 后 切换 到 你 在 上 一 步 创建 的 PracticalPredictive-Analytics 文 件 夹 ; 
7) Choose Directory 对 话 框 弹 出 时 ， 上 点击 Select Folder 选 择 路 径 ; 


8) 选择 路 径 之 后 ， 应 该 出 现下 图 所 示 内 容 ( 仅 限 Windows) : 


Create Project from Existing Directory 


Project working directory: 
C:/PracticalpredictiveAnalytics ( Browse.,. | 


DOpen in new session (create Foe [ Cancel | 


9) 要 完成 创建 项 目 ， 选 择 Create Project 按 钮 。RStudio 将 切换 到 你 刚刚 创建 的 新 项 目 。 





所 有 屏幕 面板 都 暂时 是 空 日 页 面 ( 除 日 志 面 板 之 外 ) ， 屏 幕 左上 方 的 标题 栏 则 显示 项 目的 路 径 。 


为 了 验证 R 语 言 、 项 目 输出 以 及 数据 目录 都 包含 在 项 目 中 ， 可 以 选择 File， 然 后 从 顶部 菜单 栏 选择 File Open。 这 3 个 文件 夹 


应 该 如 下 图 所 示 : 


@ Open File 





~ 今 ~ 个 | 国 > ThisPC > LocalDisk(C:) > PracticalpredictiveAnalytics 





Organze v New folder 
1 和 Name Date modified Type 


4/27/2017 1:50PM Filefolder 
4/27/2017 1:30PM Filefolder 
4/27/2017 1:30 PM File folder 
4/27/2017 1:31 PM File folder 
国 practicalpredictiveAnalytics 4/27/2017 1:50 PM RProject 





验证 之 后 ， 点 击 cancel 取 消 Open File 对 话 框 ， 返 回 RStudio 主 界面 。 


1.10 ” 源 代 码 窗口 


Source 窗 口 即 所 有 R 语 言 代码 出 现 的 地 方 。 这 里 也 是 你 可 能 会 伦 很 多 时 间 的 窗口 。 你 可 以 一 次 打开 多 个 脚本 窗口 。 
创建 新 脚本 


创建 新 的 脚本 ， 可 以 从 顶部 导航 栏 选择 File 一 New File 一 R Script。 一 个 新 的 空白 脚本 窗口 将 会 出 现 ， 命 名 为 Untitled1。 


这 个 窗口 一 出 现 ， 你 就 可 以 开始 输入 代码 啦 | 


动 ~/Tmp - RStudio 
File Edt Code View Plots Session Build Debug Tooks Help 


Sa 人 本 品名 | 瑟 几 4 cotorierundon ] 


Environment | History | Files | Plots Fa ©Y untitled1 x 
分 所 | 可 ImportDatasetr | |@@ 三 中 二 二 | DSourceonsave | & | 四 cHRun | (SH | [LSource 、 


Environment is empty 


1 | oplee> [RScript: | 
Console ~/Tmp/ 悄 此刻 


R _ version 3.2.5 (2016-04-14) -- "Very, Very Secure Dishes” 
Copyright (C) 2016 The R Foundation for Statistical Computint 
Platform: x86_64-w64-mingw32/x64 (64-bit) 


R is free software and comes with ABSOLUTELY NO WARRANTY. 
You are welcome to redistribute it under certain conditions. 
Type “license()" or “licence()" for distribution details. 
Viewer 
|¥|@| 问 R is a collaborative project with many Contributors. 
Type “contributors()" for more information and 
"Citation()” on how to cite R or R packages in publications. 


Type “demo()”for some demos, "help()” for on-line help, or 
"help.start()" for an HTML browser interface to help. 
Type 'qO" to quit R. 


> | 





1.12.2 ”predict 也 | 数 

要 想 预 测 所 有 的 值 ， 我 们 会 使 用 一 个 叫 作 predict () 的 六 数 。 该 函数 读 取 每 个 输入 ( 自 ) 变量 ， 然 后 根据 线性 回归 方程 预 
测 目标 ( 因 ) 变量 。 在 这 段 代 码 中 ， 我 们 将 这 个 函数 的 输出 分 配给 一 个 名 为 “prediction” 的 新 对 象 。 

切换 到 控制 台 区 域 ， 键 入 prediction， 再 按 下 Enter， 查 看 15 位 女性 的 预测 值 。 控 制 台中 出 现 以 下 结果 。 


” :BPELGELON 


1 2 3 4 3 6 7 
So old T9221b2 OU lo oO O02...F06) 03.64035 
8 四 10 11 12 13 14 
odoUald 5001 bbGml2b 3 Dio0l84 8.010984 ooao2o4 T139608 
二 
了 


注 晶 ， 第 一 次 的 预测 值 非 单 接近 人 工 计 算 值 。 差 异 是 由 于 四 舍 五 入 误差 产生 的 。 


1.12.3 ”检验 预测 误 


由 线性 回归 产生 的 另外 一 个 R 语 言 对 象 是 误差 (error) 对 象 。 误 差 (error) 对 象 是 一 个 向 量 ， 通 过 计算 预测 的 高 度 值 和 实 
际 的 高 度 值 之 间 的 差 值 来 计算 。 这 些 值 也 称 为 剩余 误差 (residual errors) 或 残 值 (residuals) 。 


error <- womensheight-prediction 


由 于 误差 (error) 对 象 是 一 个 向 量 , 使 用 nrow () 立 数 计算 不 出 该 对 象 的 大 小 。 但 是 可 以 使 用 length () 函数 : 


>length (error) 


[1] 15 


在 所 有 之 前 的 示例 中 ， 误 差 同 量 的 长 度 都 是 15， 说 明 这 个 数 是 对 的 。 如 果 我 们 想 查 看 所 有 数据 的 原始 数据 、 预 测 以 及 预测 


误 震 ， 可 以 使 用 cbind () 阔 数 ( 列 绑 定 ) 将 这 3 个 值 合并 显示 为 一 个 简化 的 表格 。 


在 控制 台 键 入 cbind 命 令 : 


cbind (height=womensheight,PredictedHeight=prediction,ErrorIinPrediction=erro 


height PredictedHeight ErrorIinPrediction 


> 

I 

1 58 
2 59 
3 60 
4 61 
. 62 
6 6 3 
7 64 
8 65 
9 66 
10 6 7/ 
1 1 68 
二 也 69 
1 3 70 
14 .1 
I. Te 


为 了 验证 对 每 一 个 原始 的 观察 都 提供 了 一 个 预测 值 ， 我 们 会 使 用 nrow () 尔 数 计算 行 数 。 


在 控制 台 区 域 的 命令 提示 符 处 输入 命令 : 


NIrow (women) 


输出 结果 如 下 : 
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77861 
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>nIrow (women,) 


[1] 1 > 


再 回头 看 原始 脚本 中 的 第 一 行 代码 : plot (women$height，error) 绘制 出 预测 高 度 和 误差 。 


CC OO © 


始 值 不 同 。 你 可 以 看 到 这 些 误差 显示 了 一 种 非 随机 模式 。 
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有 多 人 少 预测 值 和 原 


完成 之 后 ， 保 存 文件 ， 点 击 File 一 File Save， 导 航 到 创建 的 PracticalPredictiveAnalytics/R 文 件 夹 ， 命 名 为 


Chapter1 LinearRegression。 


1 13 RS 
R 语 言 包 扩展 了 基本 R 语 言 的 功能 。 基 本 Ri 语言 本 身 的 功能 很 强大 ， 你 可 以 在 不 添加 任何 额外 包 的 情况 下 进行 大 量 的 分 析 。 不 
过 ,如果 加 入 一 个 新 的 包 能 够 提供 并 不 存在 于 基本 R 语 言 中 的 新 功能 ， 也 非常 有 帮助 ， 它 也 许可 以 基于 现 有 功能 做 出 改进 或 者 加 
强 ， 也 许可 以 让 现在 能 做 的 一 些 事情 做 起 来 更 轻松 。 

例如 ， 在 基本 Ri 语言 中 没有 内 置 包 来 执行 某 些 类 型 的 机 器 学 习 (如 随机 森林 ) 。 因 此 ， 你 需要 寻找 一 个 能 够 执行 此 功能 的 附 


加 包 。 和 手 运 的 是 ， 你 不 用 担心 了 。 有 许多 软件 包 可 以 实现 这 个 算法 。 
有 许多 新 的 包 不 断 出 现 。 我 一 直 喜 欢 基于 CRAN 的 并 且 有 庞大 用 户 基础 的 包 。 安 净 新 的 包 时 ， 我 会 试 着 将 结 


别 志 了 7 总 是 会 


果 与 其 他 类 似 的 包 相 比较 。 速 度 也 是 考虑 采用 新 包 的 另 一 个 因素 。 


1.13.1 stargazer 包 
数 所 严 生 的 输出 ， 和 之 前 


运行 SUmmary 遂 


举例 来 说 明 一 下 一 个 包 如 何 能 让 你 工作 更 轻松 : 首先 我 们 考虑 一 下 在 回归 结果 中 


做 的 一 样 。 如 果 你 乐意 ， 可 以 再 次 运行 该 函数 。 


summary (lm_output) 

由 summary () 了 尔 数 输出 的 统计 信息 尽量 一 开始 极其 大 。 这 不 仅仅 和 输出 忌 量 有 关 ， 还 和 输出 格式 有 关 。 这 束 是 为 什么 我 
没有 展示 上 一 个 示例 的 整个 输出 。 

要 使 输出 更 容易 查看 的 一 个 途径 是 先 降 低 输 出 量 ， 然 后 进行 格式 化 ， 以 便于 阅读 。 

为 了 做 到 这 一 点 ， 我 们 可 以 利用 一 个 叫 作 stargazer 的 包 ，stargazer 包 可 以 格式 化 summary () 函数 产生 的 大 量 输出 ， 简 
化 输出 表示 。stargazer 包 非常 便于 格式 化 多 种 回归 模型 的 输出 ， 并 且 可 以 把 结果 显示 为 HTML、PDF、LaTeX 或 者 简单 的 文本 格 


式 。 默 认 情 况 下 ，stargazer 包 将 显示 各 种 模型 最 重要 的 统计 输出 ， 并 且 你 可 以 指定 你 想 要 看 到 的 统计 输出 的 类 型 


想 要 获得 更 多 有 关 stargazer 包 的 信息 ， 可 以 直接 在 CRAN 查 询 有 关 stargazer 包 的 文档 ， 或 者 使 用 R 语 言 帮 助 系统 。 


如 果 你 已 经 安装 了 stargazer 包 ， 可 以 直接 运行 以 下 命令 : 


packageDescription("stargazer") 


如 果 还 没有 安生 stargazer 包 ， 有 关 stargazer 包 的 信息 (或 者 其 他 包 的 信息 ) 也 可 以 使 用 R 语 言 指定 的 网 络 搜索 背 数 找到 : 


RSiteSearch ("stargazer") 
如 果 你 想 要 在 R 语 言 中 搜索 文档 ， 可 以 在 以 下 网 站 的 有 关 R 语 言 帮 助 系统 中 获得 更 多 的 信息 : 


https://www.r-project.org/help.html 


1.13.2 ”安生 stargazer 包 


现在 ， 开 始 安 逆 stargazer 包 : 
` 首先 创建 一 个 新 的 R 语 言 脚本 (File>New File>R Script) 。 
` 键入 下 列 几 行 代码 ， 从 代码 面板 的 菜单 栏 中 选择 Source 来 提交 整个 脚本 : 


install .packages ("stargazer") 
library (stargazer) 
stargazer (lm_output, , type="text") 


脚本 运行 之 后 ， 控 制 台 将 出 现 以 下 输出 : 


> Stargazer(lm output, title="Lm Regression on Height”, type=" text") 


Lm Regression on Height 


Dependent variable: 


OQ. 287*** 
(0. 008) 


i 


observations 

R2 

Adjusted R2 

Residual Std. Error 0.440 (df = 13) 

F Statistic 1,433.024*** (df = 1; 13) 


*p<0.1; **p<0.05; wwxwp<O. 01 





代码 摘 述 
以 下 是 对 刚才 运行 的 代码 的 逐 行 质 述 。 


:install.packages ("stargazer") : 这 行 代码 会 把 stafgazef 包 安装 到 机 器 的 默认 包 目 录 中 。 如 果 重 新 运行 代码 ， 可 以 注释 掉 这 行 
代码 ， 因 为 stargazer 包 已 经 安装 到 了 你 的 R 语 言 库 中 。 


` library (stargazer) : 安装 stargazer 包 并 不 意味 着 stargazer 包 就 已 经 可 用 了 。 你 需要 运行 一 个 库 池 数 (或 者 require () ) 来 真 


正 加 载 stargazer 包 。 


stargazet (lm_output，，type="text") : 这 行 代码 将 输出 对 象 lim_output， 该 对 象 在 第 一 个 脚本 中 创建 ， 压 缩 输出 并 用 一 个 
简化 的 、 可 读 性 较 高 的 格式 输出 到 控制 台 。stargazet 库 中 有 很 多 其 他 的 选项 ， 可 以 将 输出 格式 化 为 HTML 或 者 LaTex。 


更 多 信息 请 参阅 参考 和 资料 手册 : https://cran.r-project.org/web/packages/stargazer/index.html。 


重新 格式 化 过 的 结果 会 出 现在 R 语 言 控制 人 台中。 正如 你 所 见 ， 挥 制 台 显示 的 输出 比 之 前 更 和 干净、 更易 读 。 


1.13.3” 保 仔 工 作 


工作 完成 之 后 ， 从 菜单 栏 选择 File 一 File Save。 然 后 切换 到 刚才 创建 的 PracticalPredictive-Analytics/Outputs 文 件 夹 ， 并 
将 其 命名 为 Chapter1 LinearRegressionOutput。 点 击 Save。 


1.14 参考 俯 料 


e Computing and the Manhattan Project retrieved from http://www.atomicheritage 
.Org/history/computing-and-manhattan~-project 


e。 Gladwell, M. (2005). Blink : The Power of Thinking Without Thinking. New York: 
Little, Brown and Co. 

e。 Linda Miner et al. (2014). Practical Predictive Analytics and Decisioning Systems for 
Medicine. Elsevier. 

e。 Watson (Computer) retrieved from Wikipedia: nttps://en.wikipedia.org/wiki 
/Watson_ (computer). 


e。 WEATHER FORECASTING THROUGH THE AGES retrieved from nttp://earth 


observatory.nasa.gov/Features/WxForecasting/wx2.php. 


1.15 ”本 童 小 结 


在 本 章 中 ， 我 们 大 至 了 解 了 什么 是 预测 分 析 ， 以 及 如 何 将 预测 分 析 应 用 到 各 行 各 业 。 我 们 学 习 了 一 些 关 于 数据 的 知识 ， 以 及 
如 何 将 它们 在 项 目 中 组 织 起 来 。 最 后 ， 安 闭 了 RStudio， 运行 了 一 个 简单 的 线性 回归 算法 ， 安 六 并 运行 了 我 们 的 第 一 个 包 。 我 们 
还 认识 到 ， 将 包 载 入 内 存 之 后 检验 数据 是 好 的 实践 ， 在 简化 展示 和 绘制 数据 方面 也 有 很 多 可 以 学 习 的 内 容 。 

下 一 草 中 ， 我 们 会 讨论 忌 体 的 预测 分 析 模 型 过 程 ， 介 绍 一 些 使 用 R 语 言 的 天 键 模型 包 ， 并 提供 一 些 避 免 预 测 模 型 缺陷 的 指 


已 
十 o 





George Edward Pelham Box 


今天 ， 我 们 正 处 于 需要 多 种 类 型 的 技能 来 参与 预测 分 析 项 目的 时 刻 。 这 曾经 纯粹 是 统计 学 家 、 程 序 员 和 业务 分 析 师 的 领域 。 
现在 参与 项 目的 角色 已 经 扩展 到 包括 可 视 化 专家 、 数 据 存 储 专家 和 其 他 类 型 的 专家 。 然 而 很 多 人 不 太 了 解 要 如 何 构 建 预 测 性 分 析 
项 目 。 这 种 结构 的 缺乏 可 能 受到 几 个 因素 的 限制 。 这 些 因素 通常 是 对 业务 问题 的 关键 部 分 缺乏 了 解 以 及 模型 开 友 得 太 早 。 或 者 可 
能 是 将 正 陈 的 方法 推迟 到 将 来 ， 而 用 一 个 快速 的 解决 方案 来 蔡 代 。 


在 本 章 中 ， 我 们 会 首先 讨论 使 用 结构 化 分 析 方 法 的 优势 。 方 法 论 是 向 上 层 管 理 人 员 证 明 价值 的 一 个 好 方法 ， 而 团体 或 个 人 鼓 
吹 结构 化 万 法 是 从 管理 层 获 得 认同 的 一 种 方式 。 如 果 项 目 使 用 的 方法 得 到 了 认可 ， 那 么 未 来 的 项 目 将 有 很 大 的 可 能 性 得 到 更 多 的 
文 持 。 


本 章 将 介绍 以 下 几 点 : 

: 结构 化 方法 的 优点 

* 分 析 过 程 方 法 

. 在 分 析 过 程 方法 中 使 用 的 具体 步骤 的 概述 


. 具有 代码 示例 的 特定 分 析 技术 的 简短 描述 


2.1 结构 化 方法 的 优点 


分 析 项 目 有 很 多 组 成 部 分 。 这 是 结构 化 方法 对 我 们 有 所 帮助 的 地 方 。 如 果 存 在 着 友 现 和 分 析 的 结构 ， 而 不 仅 仪 是 纯粹 的 建 模 
模型 ， 我 们 从 中 可 以 获得 许多 益处 。 所 获得 的 发 现 和 见解 肯定 会 被 用 来 解决 该 问题 最 初 的 目标 。 


我 们 假设 快速 思考 的 “野兔 大脑 ”会 击败 直觉 较 慢 的 “乌龟 思维 ”。 然 而 ， 现 在 对 认 知 科学 的 研究 正在 改变 对 于 这 种 人 类 思 
维 的 理解 。 它 强调 耐心 和 困惑 是 智慧 的 重要 前 提 ， 而 不 是 严格 和 确定 性 。 





Guy Claxton 


需要 使 用 结构 化 方法 的 地 方 


天 于 结构 化 方法 的 优点 ， 需 要 考虑 以 下 几 操 : 


“ 数据 快速 地 向 我 们 逼近 。 我 们 需要 跟踪 许多 数据 源 ， 评 估 哪 些 是 最 好 的 数据 源 ， 这 些 数据 可 以 在 任何 给 定 的 时 间 内 使 用 ， 
并 持续 监控 数据 的 准确 性 。 预 期 的 变化 来 得 比 期 望 中 更 快 。 预 测 建 模 者 需要 一 种 结构 化 的 方法 来 跟踪 事物 ; 无 论 它们 处 于 建 模 过 
程 的 哪 一 个 阶段 ， 变 化 都 可 能 是 破坏 性 的 。 


. 有 意义 的 数据 和 伪装 成 有 意义 的 数据 之 间 的 差异 正在 增加 。 结 构 化 方法 有 助 于 维护 元 数据 信息 库 的 信息 ， 这 有 助 于 确定 哪 
些 数 据 是 有 用 的 ， 哪 些 不 是 。 


. 数据 分 析 技术 的 数据 量 在 不 断 增 加 。 要 了 解 选 择 哪 种 分 析 技术 可 能 是 一 项 艰巨 的 任务 。 特 定 的 项 目 ， 用 于 评估 哪些 数据 技 
术 比 其 他 用 于 特定 业务 问题 的 技术 更 有 用 ， 这 会 是 一 个 值得 称道 的 目标 。 


结构 化 方法 有 助 于 保持 客观 性 。 每 个 人 都 有 自己 的 主观 技术 偏见 。 创 建 一 个 分 享 代码 和 结果 的 结构 化 方法 可 以 有 助 于 创造 
性 的 思考 。 


` 增 量 式 改 进 : 通常 是 项 目 太 大 或 期 望 较 高 。 项 目 可 以 通过 完成 多 个 小 项 目 以 提供 价值 的 方式 来 组 织 。 当 使 用 结构 化 方法 封 


准 项 目 时 ， 这 更 容易 实现 。 


. 迁 代 分 析 开 发 使 用 结构 化 技术 来 执行 良好 的 数据 分 析 业 务 ， 例 如 能 够 用 一 些小 步骤 进行 迭代 。 如 果 稍 后 发 现任 何 差异 ， 就 
可 以 很 容易 地 通过 增 量 更 新 来 回溯 。 

` 分 而 治之 有 助 于 组 织 涉及 项 目 各 个 部 分 工作 的 多 个 团队 成 员 的 项 目 。 

. 可 重复 性 有 助 于 分 析 团 队 一 次 又 一 次 地 重 现 相同 的 结果 。 这 在 研究 中 始终 很 重要 ， 不 过 对 大 型 数据 项 目 也 会 有 所 影响 ， 你 
可 以 在 项 目 中 处 理 大 量 数据 原始 资源 。 通 常情 况 下 ， 我 们 需要 的 帮助 是 理解 某 些 转换 过 的 数据 源 ， 业 务 规 则 转换 不 清晰 的 数据 源 
以 及 你 不 懂 也 能 改变 的 数据 源 。 当 然 这 样 的 理解 在 执行 版 本 控制 时 也 同样 很 重要 ， 而 且 当 你 升级 软件 包 并 且 需 要 重新 创建 结果 
时 ， 这 也 是 非常 重要 的 。 涉 及 数据 抽样 时 ， 产 生 样 本 的 原始 筛选 标准 也 可 能 不 再 可 用 ， 并 且 可 能 会 形 失 可 重复 性 。 因 此 以 结构 化 
的 方式 开发 样本 的 策略 是 很 重要 的 ， 这 些 策 略 是 稳健 的 ， 并 且 可 以 通过 未 来 的 分 析 再 现 。 


2.2 ”分析 过 程 万 法 


目前 有 几 种 分 析 过 程 方法 ， 然 而 ， 我 将 仅 讨 论 两 种 已 经 存在 了 一 段 时 间 的 由 来 已 久 的 方法 CRISP-DM 和 SEMMA， 它 们 可 以 
在 你 从 间 题 定义 到 洞察 的 旅程 中 提供 帮助 。 


2.2.1 CRISP-DM 和 SEMMA 


跨行 业 的 数据 挖掘 标准 流程 (CRISP-DM) 和 抽样 、 探 索 、 调 整 、 模 型 和 评价 (SEMMA) 是 已 经 使 用 多 年 的 两 种 标准 数据 
挖掘 方法 ， 它 们 摘 述 了 实施 分 析 项 目的 一 般 广 法。 虽然 每 个 步骤 的 名 称 不 同 ， 但 是 两 种 方法 之 间 也 有 很 多 重 玛 。 所 有 人 询 出 的 步骤 
对 于 预测 分 析 项 目的 成 功 至 关 重 要 。 但 是 ， 这 些 步骤 并 不 是 必须 遵循 它们 的 原始 顺序 。 这 里 概述 的 概念 或 多 或 少 是 最 佳 实践 的 概 
要 。 它 有 助 于 我 们 意识 到 每 个 步骤 的 重要 性 ， 并 且 了 解 每 个 步骤 如 何 建立 在 以 前 的 知识 之 上 。 


尽管 这 些 步 又 是 按 顺 序列 出 以 供 参 考 ， 但 是 你 会 友 现 ， 在 实践 中 它们 更 多 的 是 迭代 的 ， 你 经 常会 被 循环 回 到 上 一 步 。 尤 其 是 
当 你 现在 友 现 的 信息 与 以 前 友 现 的 信息 有 冲突 时 ， 经 单 会 友 生 这 种 情况 。 


举 个 例子 来 说 ， 很 多 时 候 你 相信 你 已 经 完成 了 数据 准备 阶段 ， 只 是 在 建 模 阶段 才 友 现 数据 集中 有 一 个 问题 ， 而 且 需 要 执行 更 
多 的 数据 准备 来 适应 某 些 条 件 。 解 决 方案 之 一 可 能 是 循环 回来 ， 尝 试 补救 数据 情况 ， 同 时 看 看 如 何 继续 建 模 。 这 通 弟 需要 通过 设 
置 标志 或 维护 不 同 的 包含 文件 、 版 本 等 来 “编码 ”问题 。 在 处 理 数 据 时 ， 我 们 总 是 要 企 代码 中 做 防守 的 工作 。 


2.2.2 ”CRISP-DM 和 SEMMA 的 图 表 


如 果 你 在 以 下 图 表 中 查看 SEMMA 和 CRISP-DM 之 间 的 差异 ， 将 注意 到 步骤 2 ~ 5 在 方法 上 是 类 似 的 。 


请 注意 ，SEMMA 将 抽样 作为 初始 阶段 ，CRISP-DM 从 业务 理解 开始 ， 并 以 模型 部 署 结束 。 


数据 抽样 

探索 (数据 特征 探索 、 分 析 和 预 处 理 ) 
调整 (问题 明确 化 、 数 据 调整 和 技术 选择 ) 
建 模 (模型 的 研发 、 知 识 的 发 现 ) 

评价 (模型 和 知识 的 综合 解释 和 评价 ) 


这 两 个 过 程 的 关键 是 将 结果 可 视 化 并 向 利益 相关 者 传达 的 概念 。 请 注意 ， 可 视 化 不 看 作 单 独 的 一 个 步骤 。 请 始终 尝试 在 每 个 
步骤 中 包含 一 个 表示 层 (图 、 图 表 和 可 视 化 结果 ) ， 以 便 促 进 所 有 预测 性 分 析 利 益 相 天 者 之 间 的 沟通 。 


OI | 人 || | 


2.2.3 ”敏捷 过 程 


由 于 开 友 预测 模型 是 迭代 的 ， 所 以 像 如 Scrum 和 Kanban 这 类 敏捷 方法 在 结构 化 框架 内 工作 良好 ， 尤 其 是 在 与 产品 交付 相关 


的 情况 下 。 然 而 ， 知 识 发 现 、 概 念 证 明和 模式 增 量 变化 改进 也 会 受益 于 敏捷 方法 。 当 用 作业 务 理解 过 程 的 一 部 分 时 ， 这 些 技术 也 
可 用 于 将 问题 列表 分 到 agile backlog 组 里 面 ， 然 后 可 以 将 其 纳入 sprint 中 来 。 


2.24 六 西格玛 和 根本 原因 


六 西格玛 已 经 仔 在 了 很 长 时 间 ， 并 且 与 流程 改进 有 关 。 它 已 经 开发 了 上 自己 的 一 套 方法 和 技术 来 处 理 检 查 业务 问题 及 其 解决 方 
案 。 了 解 一 些 基 本 统计 拉 术 是 很 有 用 处 的 。 人 们 通常 会 依据 根本 原因 分 析 的 步骤 (这 是 六 西格玛 的 重要 组 成 部 分 ) 来 了 解 为 什么 
发 生 了 数据 质量 问题 。 例 如 ， 数 据 可 以 通过 多 个 内 部 和 外 部 系统 传递 ， 并 受到 许多 手动 更 新 和 系统 故障 和 问题 的 影响 。 在 复杂 系 
统 中 ， 通 弟 不 清楚 错误 皮 生 在 哪里 。 和 六 西格玛 也 可 以 使 用 一 些 非 囊 简单 的 扩 术 来 检查 一 些 因果 关系 ， 例 如 5 Whys 方 法 
(Determine the Root Cause: 5 Whys) 。 


2.2.5 ”是 否 需 要 数据 抽样 


数据 抽样 被 指定 为 9SEM MA 过 程 的 第 一 个 步骤 (但 在 CRISP-DM 中 没有 被 指定 ) ， 因 此 我 将 单独 介绍 它 


传统 上 ， 预 测 分 析 从 数据 抽样 开始 。 数 据 抽样 在 某 些 从 实验 研究 开始 的 行业 (如 制药 和 医疗 保健 ) 中 尤其 重要 。 数 据 抽样 在 
长 时 间 ( 群 组 ) 跟随 群体 的 研究 中 也 很 重要 。 然 而 ， 其 他 类 型 的 数据 项 目 不 是 研究 型 项 目 ， 而 是 以 机 器 学 习 为 主 。 签 于 此 ， 我 认 
为 如 果 数 据 遵循 某 些 统计 属性 ， 例 如 将 原始 数据 转换 为 亲 往 正人 态 分 布 的 数据 ， 或 者 构建 训练 数据 以 使 得 人 口 不 同 细 分 的 观察 次 数 
相等 ， 则 许多 算法 更 易于 使 用 (并 且 更 强大 ) 。 在 准备 这 尝 算法 的 数据 时 ， 数 据 抽 样 可 能 是 至 关 重 要 的 ， 因 此 抽样 的 数据 能 更 好 
地 代表 较 大 的 数据 集 。 


以 下 是 数据 抽样 的 其 他 一 些 优点 : 


- 有 了 较 小 的 样本 ， 你 将 有 能 力 了 解 你 的 所 有 数据 。 这 意味 着 ， 如 果 需 要 的 话 ， 数 据 量 可 以 下 降 到 仅仅 若干 条 记录 的 水 平 。 
这 是 非常 大 的 数据 集 无 法 实现 的 地 方 。 此 外 ， 除 了 更 大 的 分 组 级 别 的 问题 ， 你 还 可 以 提出 更 具体 的 细节 级 别 的 跟 进 问题 。 


“ 抽样 可 让 你 发 现 潜在 的 有 趣 的 子 集 。 你 可 以 首先 随机 抽取 一 些 看 起 来 很 有 趣 的 东西 的 较 小 子 集 ， 然 后 测试 以 查看 该 组 是 否 
表现 出 异 质 性 。 


“ 抽样 也 加 快 了 算法 的 开发 速度 。 花 费 很 多 时 间 在 非常 大 的 数据 集 上 运行 算法 通 第 不 能 产品 化 ， 因 为 可 能 用 了 大 量 处 理 时 间 
来 运行 消耗 内 存 的 算法 。 如 果 你 将 来 会 对 该 算法 进行 大 量 的 调整 ， 我 建议 首先 在 较 小 的 代表 性 样本 上 测试 算法 ， 然 后 扩展 到 更 大 


的 数据 集 。 


` 在 抽样 时 ， 你 可 以 更 好 地 控制 样品 的 最 终 数 据 质量 。 这 是 因为 你 可 能 已 经 先 查 看 过 数据 相关 的 群体 总 体 的 特征 ， 然 后 设计 
出 一 个 最 小 化 偏差 的 适当 的 抽样 策略 来 完成 抽样 工作 。 


: 执行 Bootstrap (重复 ) 抽样 有 助 于 发 现 大 数据 样本 中 的 任何 偏差。 如 果 你 看 到 抽样 中 出 现 了 一 些 奇 怪 的 东西 ， 那 么 在 较 大 
的 数据 中 很 可 能 会 有 一 个 更 大 的 问题 。 


2.2.6 “使 用 所 有 数据 


然而 ， 许 多 数据 科学 家 还 是 会 选择 使 用 全 部 数据 作为 分 析 的 基础 ， 而 不 是 一 个 样本 。 我 猜测 他 们 这 样 做 的 原因 之 一 是 通 单 难 
以 获得 可 靠 的 样本 ， 特 别 是 当 数 据 有 很 多 不 同 的 来 源 时 ， 有 些 数 据 的 质量 是 不 知道 怎么 样 的 。 好 的 、 可 靠 的 数据 需要 花 钱 来 收 


集 。 另 一 个 原因 是 数据 科学 家 可 能 不 熟悉 抽样 技术 ， 或 者 认为 更 多 数据 总 是 更 好 的 。 因 此 ， 也 很 需要 了 解 一 些 关 于 使 用 全 部 数据 
的 重要 事项 : 


“ 如 果 全 部 数据 能 准确 地 代表 潜在 的 群体 ， 那 么 你 可 以 使 用 全 部 数据 。 如 果 全 部 数据 正好 是 潜在 的 群体 ， 那 么 你 除了 小 心 说 
慎 地 使 用 它 以 外 就 没有 更 好 的 办 法 了 。 你 可 能 认为 一 个 群体 只 是 一 个 非常 大 的 样本 。 但 是 未 来 的 数据 可 能 反映 出 完全 不 同 的 现 
实 。 对 于 非常 大 的 数据 集 ， 你 无 法 确定 我 们 正在 查看 的 是 有 代表 性 的 ， 因 为 数据 量 可 能 是 海量 的 ， 底 层 数 据 收集 方法 可 能 是 未 知 
的 或 不 可 靠 的 。 对 长 时 间 收 集 的 数据 要 特别 小 心 。 数 据 收 集 方法 通常 会 发 生变 化 ， 或 者 计算 方式 会 发 生 改 变 。 


对 海量 的 数据 时 ， 并 不 是 必须 用 所 有 的 数据 来 表达 那些 促成 了 反馈 的 因子 。 例 如 ， 点 击 流 数据 和 在 线 调查 数据 并 不 
背后 的 原因 。 想 要 审查 动机 ， 建 议 使 用 深度 检查 (尽管 样本 量 较 小 ) 。 


[发 
< 
Ss 
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“ 如 前 所 述 ， 处 理 大 量 数据 会 消耗 大 量 的 计算 资源 。 对 准确 的 样品 进行 加 工 可 能 需要 的 时 间 会 少 很 多 。 


-使 用 大 型 数据 集 ， 你 总 是 会 在 菜 处 发 现 一 些 数据 之 间 的 相关 性 。 与 此 相关 的 概念 是 显著 的 相关 性 与 影响 的 大 小 。 这 意味 省 
即使 你 发 现 统计 学 上 显著 的 相关 性 ， 差 异 也 可 能 非常 微小 ， 从 而 使 任何 关联 都 无 意义 或 不 可 操作 。 


所 以 我 们 的 第 一 个 步骤 是 尝试 了 解数 据 的 收集 方式 。 它 可 能 偏 同 某 些 年 龄 组 别 、 性 别 、 技 术 用 户 等 。 可 以 使 用 一 种 称 为 过 抽 
样 的 技术 来 解决 这 个 问题 ， 在 这 种 技术 中 ， 你 可 以 使 用 更 接近 现实 的 万 式 表示 抽样 频率 ， 来 衡量 某 些 被 低估 的 组 。 


2.2.7 ”比较 样本 与 群体 


为 了 调 明 抽样 的 一 些 好 处 ， 并 且 了 解 你 通常 可 以 如 何 使 用 一 个 样本 来 获得 与 使 用 更 大 的 群体 相同 的 结果 ， 请 复制 以 下 代码 并 
在 R 脚 本 中 运行 它 。 该 脚本 将 生成 1500 万 行 的 群体 ， 然 后 随机 提取 一 个 100 行 的 样本 。 然 后 我 们 再 来 比较 它们 的 结 


large.df <- data.frame ( 


gender = c(rep(c("Male", "Female", "Female"), each = 2000000)), 
purchases = c(0:9, 0:5, 0:7) 
) 


#take a small sample 


y <- large.df[sample (nrow (large.df), 100), | 
mean (large.dfS$purchases,) 


mean (y$purchases,) 


#Render 2 plots side-by-side by setting the plot frame to 1 py 2 
par (mfrow=c (1,2)) 


barplot (table(y$gender)/sum(table (y$gender))) 


)barplot (table (large.df$gender)/sum(table (large.df$gender)) 
#Return the plot window to a 1 by 1 plot frame 
par (mfrow = c(i1, 1)) 


切换 到 控制 台 ， 可 以 注意 到 样本 均值 和 群体 均值 很 接近 : 


> mean (large.dfpurchases) 
[1] 3.6666671 

> mean (ys$purchases) 

[1] 3.64 


现在 ,切换 到 绘图 区 ， 你 可 以 友 现 ， 当 比较 样本 ( 左 图 ) 和 群体 ( 石 图 ) 时 ， 性 别 分 布 也 是 相似 的 : 














我 鼓励 你 目 己 拿 一 些 大 数据 集 ， 生 成 一 些 随机 的 样本 来 作为 练习 ， 并 看 一 下 你 得 到 结果 和 和 群体 结果 的 差距 。 这 可 能 会 使 你 
作 得 更 快 更 有 效 。 


2.4 第 二 步 : 理解 数据 


一 旦 建立 了 目标 并 确定 了 数据 源 ， 你 残 可 以 开始 至 看 数据 ， 了 解 每 个 数据 变量 的 独立 行为 ， 以 及 如 何 与 其 他 变量 进行 组 合 交 
互 。 但 是 即使 在 开始 观察 变量 的 值 之 前 ,重要 的 是 要 了 解 不 同类 型 的 数据 稀 量 尺度 ， 以 及 你 可 以 对 它们 执行 什么 类 型 的 分 析 。 


衡量 尺度 是 个 分 类 系统 ， 将 数据 分 类 为 如 下 所 述 的 4 个 不 同类 别 : 定 类 、 顺 序 、 间 隔 和 比率 。 这 是 项 目 或 研究 元 数据 的 重要 


方面 。 


衡量 尺度 在 预测 分 析 领 域 很 重要 ， 因 为 特定 的 衡量 通 


通常 会 决定 哪 种 算法 或 拷 术 可 以 应 用 。 例 如 ， 如 果 使 用 的 是 定 类 数据 ，k 
均值 聚 类 会 很 有 效 ， 而 逻辑 回归 不 能 将 比率 数据 用 作 因 变量 (尽管 


尽管 你 可 以 将 变量 转换 为 较 小 的 比例 ) 。 


定 类 数据 有 时 也 称 为 分 类 数据 ， 它 简单 地 定义 了 一 个 没有 任何 目 然 顺序 的 类 或 组 。 定 类 变量 通常 是 字符 数据 ， 但 并 不 忌 是 。 
你 的 性 别 、 你 喜欢 的 手机 品牌 ， 以 及 你 正在 阅读 的 书籍 类 型 ， 都 是 定 类 变量 的 示例 。 有 了 时 这 可 能 比较 微妙 ， 因 为 当 在 标志 上 写 下 
数字 1 和 2， 用 于 指定 你 可 能 需要 在 机 动车 辆 管理 局 访问 的 两 条 可 能 的 等 待 队 列 时 ， 它 们 也 是 定 类 变量 。 定 类 数据 仅 指 定 类 别 ， 


你 不 能 对 其 进行 任何 数学 运算 ， 例 如 加 法 或 减法 。 

在 掏 述 定 类 数据 的 特征 时 ， 集 中 趋势 的 唯一 度量 是 模式 ， 这 是 最 单 出 现 的 值 。 平 均值 或 中 位 数 是 无 法 计算 的 。 

在 R 语 言 中 ， 我 们 可 以 将 字符 数据 转换 为 因子 ， 以 便 将 其 作为 定 类 数据 进行 分 析 。 我 们 稍 后 将 会 了 解 到 这 将 是 数据 清洗 过 程 
的 重要 组 成 部 分 。 当 分 析 定 类 数据 时 ， 出 现 频率 (计数) 是 一 个 很 好 的 起 点 。 或 者 你 在 一 开始 可 以 将 它 与 其 他 定 类 变量 的 计算 结 
果 分 组 ， 以 确定 其 他 数字 变量 的 计数 或 平均 值 。 

顺序 数据 


顺序 数据 只 有 等 级 顺序 。 可 以 执行 诸如 A> B 和 B<C 这 样 的 语句 ， 但 不 能 计算 任何 组 乙 间 的 数值 差异 。 前 十 名 列表 是 一 个 顺 
序数 据 的 例子 。 如 果 分 类 数据 有 具有 隐 合 的 顺序 ， 如 分 类 为 Better 和 Best 两 个 类 别 ， 通常 可 将 其 分 类 为 顺序 数据 。 顺 序数 据 的 一 个 
问题 是 : 我 们 从 来 不 知道 每 个 排名 数据 点 之 间 的 确切 区 别 是 什么 。 


间 隅 数据 
这 种 数据 是 数字 数据 ， 你 可 以 测量 它们 的 距离 ， 但 不 能 采集 比例 。 温 度数 据 和 日 历数 据 是 间隔 数据 的 两 个 例子 。 数 字 刻 度 上 
两 个 连续 数据 点 之 间 的 所 有 算术 差异 都 以 相同 的 方式 进行 测量 ， 因 此 可 以 取得 有 意义 的 差异 。 


通 单 ， 间 隅 数据 被 视 为 比率 数据 。 当 计算 诸如 比例 尺度 的 平均 值 (尽管 这 在 拉 术 上 不 正确 ) 时 ， 经 党 会 出 现 这 种 情况 。 你 可 
以 使 用 顺序 数据 计算 频率 、 中 值 和 上 百 分 位 数 ， 但 不 能 进行 任何 算术 运算 或 计算 平均 值 。 


比率 数据 


数字 数据 的 最 高 级 别 是 比率 尺度 。 使 用 比率 数据 ， 你 可 以 使 用 除法 和 减法 进行 有 意义 的 比较 。 如 果 你 的 客户 数 在 一 个 月 内 从 
50 增 长 到 100， 将 其 描述 为 你 获得 了 两 倍数 量 的 客户 ， 这 是 有 意义 的 。 比 率 数 据 还 会 向 数字 域 添 加 0 (间隔 数据 不 能 这 样 做 ) ， 
因此 你 有 0 个 客户 (尽管 是 不 太 理想 的 ) 这 种 描述 也 是 有 意义 的 。 权 重 和 收入 也 是 比率 数据 的 例子 。 然 而 ， 华 氏 温度 和 摄氏 温度 
的 0 并 不 意味 着 没有 温度 。 如 果 你 党 试 比较 温度 ， 则 会 产生 一 些 有 趣 的 比较 。 例 如 ， 在 华氏 温度 下 ，36/18 的 温度 等 于 2， 但 等 值 
摄氏 度 则 为 2.22/-7.78， 等 于 0.28， 这 表明 比率 比较 宫 无 意义 ， 这 两 种 温度 应 视 为 间隔 数据 。 


要 了 解 更 多 关于 尺度 和 测量 理论 的 信息 ， 请 参阅 《On the Theory of Scales and of Measurement》 
(Stevens, 1946) 。 
不 同 衡量 尺度 之 间 的 转换 


作为 一 般 规则 ， 你 可 以 始终 将 较 高 级 别 的 衡量 尺度 转换 为 较 低 的 稀 量 尺度 ， 但 不 能 相反 。 通 常 这 是 通过 一 种 称 为 分 箱 
(binning) 的 拉 术 完成 的 ， 你 可 以 将 具有 一 定 汽 围 内 的 所 有 数值 放 入 一 个 箱 中 。 比 如 说 ， 你 可 能 要 来 取 各 种 高 度 沁 围 ， 并 根据 
预定 义 的 学 围 将 它们 分 为 局 、 低 或 中 等 。 但 是 ， 你 一 般 不 会 把 分 类 变量 映射 到 数字 变量 ， 除 非 你 很 了 解 该 类 别 的 测量 ， 而 且 愿 意 


做 出 很 多 假设 。 
因 变 量 和 目 变 量 


因 变 量 是 你 正在 预测 的 变量 。 它 也 可 以 称 为 目标 变量 、 咽 应 变量 或 结果 变量 。 预 测 模 型 的 一 个 目标 是 ,使 用 基于 上 自 变量 的 一 
些 消 数 导出 因 变量 的 预测 。 因 变量 通 弟 是 固定 的 ， 你 无 法 操作 它 。 目 变量 是 你 选择 的 变量 ， 你 相信 它们 对 于 确定 因 变 量 的 结果 很 
该 


是 
重要 ， 也 是 基于 某 个 阔 数 的 。 访 函数 通 单 使 用 算法 来 应 用 。 


变换 变量 是 你 目 己 创建 的 、 在 原始 数据 中 不 仔 在 的 变量 。 以 下 是 一 些 如 何 创 建 变换 变量 的 示例 : 

你 可 以 将 数字 变量 分 为 几 个 不 同 的 类 别 ， 例 如 高 (所 有 数值 大 于 10) 、 低 ， 或 任何 小 于 10 的 值 。 请 注意 ， 合 并 会 导致 丢失 
信息 ， 但 同时 也 通过 允许 你 给 事物 命名 ， 使 你 得 到 了 灵活 性 ， 并 促进 了 可 理解 性 。 

通过 将 单元 计数 除 以 总 数 将 计数 数据 转换 为 百分比 。 


在 建 模 阶段 标准 化 数据 一 一 处 理 标准 化 变量 ， 而 不 是 使 用 原始 数据 本 身 ， 通 常 是 很 有 用 的 。 标 准 变 量 是 强制 变 成 平均 值 为 
0、 标 准 偏差 为 1 的 变换 。 该 变换 保留 原始 值 的 分 布 和 结构 ， 但 是 可 以 更 方便 地 将 一 组 变量 与 另 一 个 具有 不 同比 例 的 变量 进行 比 
较 。 


“ 在 回归 建 模 中 ， 通 常用 诸如 log () 或 exp () 之 类 的 变换 替换 或 添加 另 一 个 变量 ， 以 便 得 到 的 模型 具有 更 好 的 线性 拟 合 。 


2.4.2 早 变 量 分 析 


在 对 所 有 潜在 的 候选 变量 进行 调研 之 后 ， 从 单 变 量 分 析 开 始 入 手 ， 是 可 以 行 得 通 的 。 既 然 你 可 以 一 个 一 个 地 分 别 查 看 多 个 变 
量 ,为 什么 非 要 一 起 查看 ， 让 事情 变 得 复杂 呢 ? 通常 ， 建 模 的 结果 会 建议 立即 删除 一 个 包含 在 模型 中 的 变量 ,例如 有 具有 高 百分比 
缺失 值 的 变量 ， 或 者 具有 数据 质量 问题 的 变量 。 在 早期 消除 变量 通 音 是 最 好 的 处 理 万 式 ， 这 比 市 痢 所 有 变量 进行 分 析 ， 随 后 却 友 
现 需 要 去 弃 一 些 变量 要 好 一 一 尤其 是 当 你 友 现 两 个 变量 是 对 于 相同 事物 的 测量 的 时 候 。 


汇总 统计 

通过 查看 可 能 出 现在 模型 中 的 每 个 候选 变量 的 汇 轧 统计 信息 开始 分 析 ， 通 常 是 一 个 好 主意 。 平 均值 、 标 准 偏差 、 频 率 和 偏 度 
使 你 可 以 快速 泛 化 你 对 变量 的 行为 的 期 望 。 在 审查 被 视 为 目标 变量 的 任何 变量 时 ， 你 还 应 该 做 一 些 特别 的 考虑 。 

要 显示 有 关 单 个 变量 的 基本 汇总 统计 信息 ， 可 以 使 用 R Summary () 函数 。 这 可 以 作为 R 脚 本 的 一 部 分 或 直接 从 命令 行 执 
行 。Summary () 函数 的 一 般 形式 是 : 

#for a single variable 

Summary (dataframe$variable) 

#for all of the variables 

Summary (dataframe,) 


另外 两 个 典型 的 单 变 量 分 析 汇 总 近 林 是 : 


. 分 布 : 分 布 图 (直方 图 、 概 率 密度 图 等 ) 可 以 让 你 了 解 变量 看 起 来 的 样子 与 理论 统计 分 布 的 关系 。 有 的 建 模 技术 会 需要 关 


于 分 布 的 一 些 假设 ， 有 的 建 模 技 术 则 不 需要 。 发 现 一 个 变量 遵循 一 个 特定 的 分 布 是 一 件 很 幸运 的 事情 。 因 为 这 会 让 随后 的 建 模 更 


数 、 中 间 值 、 第 三 四 分 位 数 和 最 大 


加 容易 。 在 R 语 言 中 ， 可 以 使 用 hist () 函数 绘制 分 布 图 。 
第 一 四 分 位 ; 


` 箱 线 图 : 箱 线 图 是 分 布 的 一 个 简单 的 图 形 表 示 ， 它 总 人 分布 的 最 小 值 、 
成 这 5 个 关键 元 素 的 示例 。) 


值 这 5 个 关键 元 素 。 《请 参阅 下 一 节 中 使 用 R 函 数 poxplot () 


AA 


` 箱 形 的 上 下 两 行 代 表 第 三 和 第 一 四 分 位 数 ， 中 间 线 在 两 者 之 间 。 


触须 的 上 边缘 线 代 表 最 大 值 ， 下 边缘 线 代 表 最 小 值 。 


它 用 于 显示 任何 两 个 变量 之 间 的 相关 性 。 你 可 能 因为 以 下 两 个 原因 执行 双 变 


双 变量 分 析 
双 变量 分 析 通 常 在 单 变量 分 析 后 的 下 一 步 进行 。 


在 建 模 框架 中 ， 我 们 要 寻找 的 一 个 关键 结果 是 ， 目 标 变量 和 任何 一 个 自 变 量 之 间 的 关联 。 
-我们 要 寻找 的 另 一 个 同样 重要 的 结果 是 ， 任 何 两 个 自 变量 之 间 的 可 能 关联 。 这 将 有 助 于 我 们 了 解 哪些 自 变 量 是 相互 关联 


的 ， 或 者 帮助 我 们 了 解 一 个 变量 如 何 改变 另 一 变量 的 行为 。 
双 变 量 分 析 可 以 回答 的 问题 类 型 


在 检查 任何 两 个 变量 之 间 的 天 系 时 ， 请 注意 以 下 要 操 : 
“ 这 两 个 变量 是 否 沿 着 相同 的 方向 移动 ， 或 者 是 相反 的 方向 移动 ? 在 改变 关系 的 变量 中 有 一 个 临界 值 吗 ? 
值 的 变化 是 激烈 的 还 是 缓慢 而 稳定 的 ? 


关系 中 有 强度 吗 ， 关 系 是 线性 还 是 非 线 性 的 ? 


是 否 有 特定 的 数据 子 集 具有 比 其 他 子 集 更 有 趣 的 相关 性 ? 

用 于 显示 这 些 关系 的 图 形 和 图 表 的 种 类 ， 取 决 于 不 同 的 数据 类 型 。 对 于 间隔 数据 和 比率 数据 ， 我 们 将 它们 组 合成 一 个 类 别 ， 
并 将 其 作为 定量 数据 。 

因此 ， 当 我 们 研究 定量 和 定 类 数据 之 间 的 双 变量 关系 时 ， 可 以 有 3 个 基本 的 组 合 : 

. 定量 数据 和 定量 数据 

. 定 类 数据 和 定 类 数据 

. 定 类 数据 和 定量 数据 

定量 和 定量 变量 

个 定量 变量 之 间 的 关系 。 在 下 面 的 代码 中 ， 我 们 将 使 用 R 语 言 的 pair () 函数 描绘 一 些 数据 关联 。 你 


散 点 图 通常 用 于 显示 两 个 定量 变 
可 以 友 现 Petal.Width 与 Petal.Length 有 很 强 的 关系 (第 3 行 ， 第 4 列 ) ， 而 Sepal.Width 和 Sepal.Length 之 间 的 关系 并 不 如 此 强 


烈 (第 1 行 ， 第 2 列 ) 。 


代码 示例 


pairs (Ils[l1:4]，bg=c("g9reen"， "blue","brown", "yellow","black","orange"), 
pch=21) 


Sepal.Length 


LD 
|- 
tn 
OO 
tn 
LD 
mR 
be 


PetalAVidth 





我 们 将 以 两 种 不 同 的 万 式 看 待定 类 变量 与 另 一 个 定 类 变量 乙 间 的 天 系 。 一 个 使 用 表格 的 风格 ， 另 一 个 使 用 图 形 万 法 。 


交叉 表 是 检查 定 类 变量 之 间 关 系 的 一 个 很 好 的 起 点 。 在 R 语 言 中 有 很 多 方法 可 以 实现 。 我 喜欢 使 用 models 包 中 的 
CrossTable () 函数 ， 因 为 它 不 仅 会 给 出 单元 格 计数 ， 还 会 给 出 行 和 人 列 总 计 的 频率 ， 并 提供 一 个 卡 方 统计 来 衡量 统计 学 意义 。 
它 可 能 不 够 漂亮 ， 但 它 的 工作 做 得 很 不 错 。 

请 看 下 面 的 代码 : 

linstall.packages ("gmodels") 


library (gmodels,) 
CrossTable (mtcarss$cyl, mtcars$gear, prop.t=TRUE, prop.r=TRUE, prop.c=TRUE) 


> CrossTable (mtcars$cyl, mtcars$gear, prop.t=sTRUE, prop.r=TRUE, 
prop.c=TRUE) 


Cell Contents 


| Chi-square contribution 
| NM / Row Total 

N / Col Total 
N / Table Total 


Total Observations in Table: 32 











| mtcarssgear 

mtcarsscvl | 3 | 4 | J | ROW Total | 
------------- |-----------|-----------|-----------|-----------| 
4 | 1 | 8 | 2 | 11 | 
| .390 | 3.6d40 | 0.046 | | 
| 0.091 | Oi21? | 0.182 | 0 .344 | 
| 0.067 | 0.667 | 0 .400 | | 
| 0.031 | 0.250 | 0.062 | 
------------- |-----------|-----------|-----------|-----------| 
6 | 2 | 4 | 1 | ? | 
| 0.500 | 0.1720 | 0.008 | 
| 0.286 | 0.5171 | 0.143 | 0 .219 | 
| 0.]33 | 0.333 | UU.z200 | | 
| UUbz | 0.122 | 0.031 | | 
= -|| 
8 | ]12 | U | 2 | J] 4 | 
| 4.505 | J.220 | 0.016 | | 
| 0.9857 | 0.000 | 0.143 | 0 .438 | 
| 0.800 | U.000 | 0 .400 | | 
| 0.315 | 0.000 | 0 .062 | | 
------------- |-----------|1----------- |----------- |----------- 
Column Total | 15 | ]12 | 3 | 32 | 
| 0.469 | 0.375 | 0.156 | 

| | | 


马赛 克 图 


马赛 区 图 也 将 图 形 以 交叉 表格 的 形式 显示 。 你 可 以 直观 地 看 到 ， 八 抽 和 三 挡 代 表 汽 车 中 最 多 的 汽缸 / 挡 位 产品 (前 一 个 应 急 
表 中 阴影 的 37.5%) ， 而 八 缸 和 四 挡 的 组 合 似乎 不 仔 企 。 这 一 点 企 上 述 应 急 表 的 盒 委 值 中 ， 以 及 下 面 马 赛区 图 里 用 虚线 来 表示 : 


挡 位 和 汽缸 的 马赛 克 轿 
4 6 






































这 些 比较 通常 使 用 基本 柱状 图 进行 ， 或 者 像 下 面 的 示例 中 使 用 的 并 排 箱 线 图 。 这 些 箱 线 图 给 出 了 非常 清晰 的 比较 。 
下 面 的 代码 模拟 了 两 个 广告 活动 A 和 B 的 两 种 不 同 结果 : 


set.seed(123) 
rows=100 
a <—- data.frame (Sales=rnorm(rows,mean=/75, sd=5), 


Treatment=factor(c("Campaign A"))) 
b <—- data.frame (Sales=rnorm(rows,mean=80, sd=5), 


Treatment=factor(c("Campaign B"))) 
combined=rbind (a,b) 


#Boxplots which compare treatments 


boxplot (Sales~Treatment, data=combined, main="Comparing Treatments", 
xlab="Treatment", ylab="Sales") 


效 末 比较 





效果 
所 二 列 相关 


如 果 其 中 一 个 变量 是 只 有 两 个 类 的 定 类 变量 ， 而 另 一 个 变量 是 定量 变量 ， 那 么 另 一 种 可 以 使 用 的 基本 技术 是 点 二 列 相 天 。 然 
而 ， 由 于 该 技术 使 用 皮尔 逊 相关 系数 ， 因 此 你 需要 对 数据 的 分 布 做 出 某 些 假设 。 例 如 ， 数 据 需 要 正 态 分 布 并 具有 相等 的 万寿 。 这 
个 假设 适用 于 我 们 的 模拟 销售 示例 ， 因 为 每 个 类 别 都 是 使 用 rnorm () 函数 生成 的 ， 该 函数 用 不 同 的 手段 模拟 2 个 随机 分 布 的 数 
据 帧 ， 但 是 使 用 相同 的 标准 偏差 (方才 ) 。 


我 们 可 以 使 用 以 前 的 销售 处 理 数 据 来 展示 点 二 列 相关 。 首 先 ， 将 每 个 销售 处 理 数据 映射 到 数字 变量 : 

Treatment_num <- as.integer (combinedsTreatment,) 

接 下 来 我们 可 以 使 用 R 语 言 的 table 峭 数 来 简单 地 查看 两 个 营销 活动 如 何 映射 到 数字 。 活 动 A 映射 人 到 数字 1， 活 动 B 映 射 人 到 数 
字 2。 


table (combinedsTreatment, Treatment num) 


Treatment ,Treatment_numJ) 
Treatment_num 
山区 


Campaign A 100 0 
Campaign B 0 100 





现在 ， 运 行 一 个 二 列 图 。 因 为 你 事先 知道 只 有 两 个 值 ， 所 以 你 可 以 将 x 轴 限制 为 值 1 或 2: 


ggplot (combined,aes (x=as.integer (Treatment_num), y=Sales)) 

+ geom point (size=1 .5, shape=1) 

geom_smooth (method=1m) 

scale x _ continuous (breaks=c(1,2)) 

ggtitle("Point BiSerial Correlation of Campaign with Sales") 
labs (x="Campaign Number",y="Sales") 


广告 活 动 和 销售 量 的 点 二 列 相 关 


十 十 十 十 





广告 活动 序号 


使 用 数值 数据 有 它 的 优点 。 由 于 数据 现在 是 数字 形式 ， 我 们 还 可 以 运行 相关 性 测试 。 输 出 显示 两 个 活动 的 销售 额 之 间 的 相关 
性 为 39: 


cor.test (Treatment_num, combineds$Sales,) 


EAISON 3S DIOCGUCL-moment corrTelatlon 


Treatment num ana combined$Sales 
6.0315, df = 198, p-value = 7.843e-09 
alternative hypothesis: true correlation 13 not equal to 0( 


9 percent confidence jinterval: 
0.2699868 0.5051026 
sample estimates: 





2.5 ”第 三 步 : 数据 准备 


正如 我 们 在 第 1 章 中 提 到 的 ,数据 准备 的 目的 之 一 是 准备 一 个 可 以 直接 输入 算法 的 输入 数据 建 模 文件 。 理 论 上 输入 文件 将 包 
含 第 一 步 和 第 二 步 中 获得 的 所 有 知识 。 理 想 情 况 下 ， 该 文件 将 由 目标 变量 、 所 有 有 意义 的 预测 变量 、 其 他 能 帮助 建 模 过 程 的 识别 
变量 ， 以 及 任何 其 他 基于 原始 数据 源 创建 的 变量 组 成 。 类 似 前 面 朱 述 的 步 又， 数据 准备 是 一 个 迭代 过 程 。 以 下 是 准备 数据 时 可 能 


需要 遭 循 的 一 些 典型 步骤 


- 识别 数据 源 : 这 些 是 你 需要 阅读 和 操作 的 关键 数据 输入 。 它 们 可 以 来 自 各 种 数据 格式 ， 如 CSV 文 件 、 数 据 库 、XML 或 
JSON 文 件 。 它 们 的 格式 可 以 是 结构 化 的 或 非 结 构 化 的 。 


` 识别 预期 的 输入 : 读 取 一 些 测 试 样本 并 仔细 检查 输入 ， 看 看 它 是 否 符合 你 的 预期 。 通 常情 况 下 ， 会 有 一 些 很 容易 修复 的 格 
式 化 问题 ， 你 可 能 需要 重 命 名 变量 并 将 某 些 数据 类 型 从 字符 转换 为 数字 ， 或 者 反之 。 


“ 执行 进一步 的 数据 质量 和 合理 性 检查 : 执行 自己 的 内 部 检查 后 ， 将 你 观察 到 的 数据 与 现 有 元 数据 信息 〈 如 数据 字典 〈 如 果 
可 用 ) ) 、 领 域 专家 .和 其 他 已 经 存在 的 数据 交叉 引用 来 判断 它 是 你 期 望 的 数据 。 有 时 候 你 需 将 数据 与 其 他 查询 或 引用 表 
做 连接 来 获得 你 真正 要 寻找 的 内 容 。 


“ 扩展 输入 记录 的 数量 : 在 读 取 和 获取 测试 样本 后 ， 你 可 能 布 望 读 取 比 在 初始 阶段 读 取 的 内 容 要 多 得 多 的 记录 和 变量 样本 。 
那么 你 需要 确定 在 这 个 阶段 要 读 取 的 数据 量 。 如 果 你 要 读 取 所 有 的 变量 ， 随 后 你 有 可 能 会 遇 到 内 存 问 题 ; 如 果 只 读 取 当 时 所 需 的 
内 容 ， 那 么 在 之 后 的 阶段 你 也 有 可 能 会 被 迫 再 回头 来 读 入 其 他 的 数据 或 变量 。 党 试 在 开始 时 获得 一 个 具有 高 代表 性 的 数据 样本 。 
之 后 重 写 的 代码 可 能 只 读 一 些 你 真正 需要 的 变量 的 子 集 。 


` 执行 一 些 基 本 的 数据 清理 : 虽然 清理 数据 是 建 模 过 程 的 重要 组 成 部 分 需要 注意 的 是 ， 不 要 过 度 清 理 。 过 度 清理 的 一 个 
例子 是 尝试 通过 插 补 修正 所 有 的 缺失 值 。 模 型 可 以 允许 合理 数量 的 不 良 数据 共存 ， 而 且 如 果 包 含 一 些 变化 ， 该 模型 长 期 的 表现 会 


` 尝试 做 些 聚 合 : 通过 一 些 基本 类 别 聚 合 一 些 数据 ， 并 观察 结果 。 仔 细 考 谍 在 使 用 模型 结果 与 使 用 单个 观 仁 结果 相似 时 ， 使 
用 聚合 数据 而 不 是 单个 数据 是 否 有 助 于 加 速 模型 开发 。 


创建 新 的 变量 或 变换 : 分 类 和 标准 化 变量 就 是 这 样 引 入 的 。 


“ 确定 关键 变量 : 即使 建 模 已 经 开始 ， 你 也 应 该 能 够 使 用 双 变 量 分 析 、SQL、 相 关 性 和 其 他 探索 性 工具 的 组 合 来 初步 识别 哪 


\ 


些 变量 很 重要 。 关 键 并 不 是 确定 最 重要 的 变量 ， 而 是 找到 那些 可 能 具有 某 种 预测 能 力 ， 或 者 已 知 是 相关 的 变量 。 


“ 把 你 检查 过 的 所 有 输入 文件 放 到 一 个 单独 的 分 析 文 件 中 。 现 在 你 已 经 为 建 模 阶段 做 好 准备 了 。 


2.6 ”第 四 步 : 建 模 


在 建 模 阶段 ， 你 将 选择 适合 当前 问题 的 预测 建 模 技术 并 将 其 应 用 于 你 的 数据 。 影 响 模 型 选择 的 因素 有 以 下 几 个 : 
1) 谁 将 使 用 该 模 型 ? 

2) 如 何 使 用 该 模型 ? 

3) 该 模型 的 假设 是 什么 ? 

4) 我 有 多 少数 据 ? 

5) 我 需要 使 用 多 少 变 量 ? 

6) 模型 所 需 的 准确 率 是 多 少 ? 

7) 我 是 否 愿 意 为 了 可 解释 性 牺牲 一 些 准 确 性 ? 

与 最 后 一 点 关系 尤其 密切 的 是 侯 差 和 方差 的 概念 。 


偏 舌 与 模型 近似 数据 的 能 力 有 关 。 低 偏差 算法 能 够 以 很 小 的 误 磊 来 适应 数据 。 虽 然 这 看 起 来 似乎 咏 是 有 优势 的 ， 但 它 可 能 导 
致 模型 太 复 杂 以 全 于 不 稳定 、 难 以 解释 。 另 一 方面 ， 局 偏差 的 模型 解释 起 来 相对 简单 (如 线性 回归 ) ， 但 可 能 为 了 可 解释 性 和 稳 
定性 牺牲 一 些 准 确 性 。 通 党 你 需要 先 查 看 数据 ， 并 选择 一 些 可 能 适用 的 算法 ， 将 数据 与 其 进行 匹配 。 例 如 ， 对 U 形 分 布 的 数据 ， 
线性 算法 不 是 这 类 问题 的 一 个 很 好 的 选择 ， 不 管 所 选 参 数 的 数量 或 系数 如 何 馈 调整。 再 比如 5 星 级 排名 评级 往往 会 偏向 非常 高 或 
非常 低 的 评级 ， 在 这 种 情况 下 线性 回归 也 不 是 一 个 适当 的 选择 。 


在 下 面 这 个 示例 中 ， 展 示 了 线性 回归 何 时 会 成 为 一 个 合适 的 选择 : 


set.seed(1010) 

x <= Bamblelcoc(llZSrdr5) ss LOUDUyYreplace=1TRUE, Drop= (et Do 
y <— data.frame (rating=x, custid=seq(1:100)) 

hist (ys$rating, prob=TRUE, main="Customer Ratings") 

lines (density (ys$rating),) 


如 果 回 归 问 题 涉及 库存 的 销售 预测 ， 将 会 更 合适 一 些 。 低 偏差 模型 倾向 于 导致 过 拟 合 ， 高 信 差 模型 具有 较 低 的 精度 ， 但 是 更 
容易 解释 。 
方差 与 提供 不 同 数据 时 模型 的 变化 有 关 。 低 方差 也 是 可 取 的 。 


决策 树 是 这 类 算法 的 一 个 例子 : 它 倾向 于 具有 低 偏差 (过 度 拟 合 ) ， 当 给 定 新 的 训练 样本 (局 方差) 时 ， 可 能 得 出 完全 不 同 
的 结果 。 即 使 对 现 有 决策 树 模型 添加 仅仅 一 个 新 的 观察 ， 也 可 能 产生 完全 不 同 的 树 。 


为 了 开 友 一 个 展 好 的 预测 异型， 你 必须 接 有 党 最 终 将 在 偶 差 和 方差 乙 间 做 出 受 协 或 权衡 。 要 了 解 更 多 关于 偶 差 万 郑 权 衡 的 信 
息 ， 请 查看 维基 百科 中 的 一 些 外 部 参考 。 


2.6.1 具体 模型 说 明 


下 面 我 们 要 介绍 一 些 模型 的 简短 换 述 ， 以 及 一 些 简短 的 代码 示例 。 
间 松 (计数) 模型 


站 松 模 型 用 于 模拟 事物 的 计数 。 可 以 是 在 给 定 月 份 提交 的 保险 奈 赔 的 数量 ， 在 给 定 分 钟 内 在 呼叫 中 心 收 到 的 呼叫 数量 ， 或 为 
特定 项 目 出 售 的 订单 数量 。 站 松 分 布 是 对 计数 数据 进行 建 模 的 比较 合适 的 方法 ， 这 是 因为 所 有 数据 都 为 正 数 ， 分 布 学 围 为 0 到 无 
芳 大 。 建 立 浊 松 模 型 的 经 典 方法 是 通过 Ri 语言 的 glIm () 消 数 中 的 poisson 链 接 功能 : 


model.poisson <- glm(count ~ vi+v2+v3, data=inputdata, family=polisson()) 


请 注意 ， 上 面 这 行 指定 的 模型 的 代码 仪 以 一 般 性 形式 显示 模型 。 不 要 尝试 运行 叱 ， 因 为 除 现 有 的 v1、v2、v3 或 者 count 之 外 
没有 变量 。 但 是 ， 这 个 模型 指定 方式 说 明 ， 你 可 以 通过 以 下 一 般 步 又 来 运行 当 松 模型 : 


: 自 变 量 要 放 在 “一 的 右 侧 ; 
“Data= 参数 将 提供 一 个 输入 数据 集 ; 
“family 二 ”参数 将 指定 你 将 要 运行 的 一 般 线 性 模型 的 类 型 。 在 这 种 情况 下 ， 它 将 是 一 个 泊 松 模型 。 
如 果 想 尝试 对 实际 数据 使 用 泊 松 模型 ， 可 以 使 用 包含 在 R 语 言 中 的 warpsbreaks 数 据 。 


首先 在 控制 台中 ， 输 入 help (warpbreaks) 以 获取 数据 集 的 描述 : 


[ ,1] 数值 性 断 线 的 次 数 
2. 羊毛 的 类 别 (A 或) 
本 的 级 别 (L、M 或 


然后 ， 使 用 glm () 函数 设置 和 执行 模型 。 我 们 使 用 woo| 的 类 型 和 tension 的 级 别 来 预测 断 线 (break) 的 次 数 。 请 注意 ， 
我 们 需要 人 在 glm () 国 数 之 后 添加 一 个 summary () 函数 ， 以 便 查 看 输出 ， 因 为 运行 glim () 函数 只 是 将 输出 分 配给 一 个 名 为 
model.poisson 模 型 的 对 象 。 








model.poisson <-glm(breaks~wool+tension, data=warpbreaks, family=polsson) 
summary (model .poisson,) 


2.6.2 ”逻辑 回归 


逻辑 回归 是 人 们 用 于 分 类 的 最 古老 和 稳定 的 技术 之 一 。 风 辑 回归 、 线 性 回归 和 站 松 回 归 都 被 认为 是 一 般 线性 模型 
(GLM) 。 然 而 ， 逻 辑 回归 的 预测 值 只 能 为 0 或 1。 玫 和 运 的 是 ， 这 可 以 适用 于 许多 种 情况 ， 例 如 客户 是 否 离开 ， 或 者 是 否 出 现 风 
风 。 如 果 你 已 经 熟悉 多 元 线性 回归 ， 那 么 远 辑 回归 应 该 更 容易 理解 。 因 为 你 应 该 已 经 熟悉 了 诸如 指定 多 个 目 变 量 的 概念 ， 以 及 数 
学 消 数 (如 log 和 exp) 的 用 法 ， 它 们 可 以 使 模型 中 的 变量 更 平滑 并 强制 使 它 更 线性 。 


逻辑 回归 能 产生 比值 比 (OR) ， 这 也 是 很 有 用 的 。 比 值 比 是 指 事件 友 生 的 概率 除 以 事件 不 会 友 生 的 概率 。 


标准 的 逻辑 回归 在 R 语 言 中 通过 glm () 阔 数 调用 。 


调用 gm () 的 时 候 需 要 指定 一 个 link 函 数 。link 函 数 用 来 指定 线性 模型 将 使 用 哪 种 模型 或 分 布 。 如 果 要 使 用 珊 辑 回归 ， 使 用 


family=binomial () 来 指定 逻辑 回归 。 


glIm () 孙 数 最 简 蛙 的 通用 形式 是 : 


Model.logistic <- glm(Target~vli+v2+v3,data=ssourcedata, family=binomial()) 


2.6.3 ”支持 同 量 机 


巨人 A 信 八 米 


支持 向 量 机 (SVM) 也 可 用 于 预测 二 进 制 分 类 。SVM 将 数据 投影 到 较 高 的 维度 空间 ， 以 便 可 以 使 用 超 平 面 来 分 阳 各 个 类 
别 。SVM 可 以 有 非常 好 的 准确 度 ， 但 难以 解释 ， 而 且 计 算 成 本 很 高 。 它 们 是 低 偏 舌 算 法 的 经 典 例子 。 


以 下 是 一 个 简单 的 例子 ， 使 用 3VM 来 预测 一 个 人 在 一 周 中 的 某 一 天 是 人 否 满 意 ， 基 于 当日 是 个 是 一 个 上 友 薪 日 。 (向 量 元 素 企 
payday 同 量 中 标记 为 1， 如 果 从 星期 日 开始 计数 ， 则 可 以 将 其 解释 为 星期 五 。) 


library (e1071) 

satisfied = factor(c(F,F,F,F,F,T,F)) 

dav 二 总 (了 

Bavaay = Ct 0 Dy Us yd) 

satisfaction.df = data.frame (day=day, payday=payday, satisfied=satisfied) 
model.svm = svm(satisfied ~ day + payday, data = satisfaction.df) 

plot (model.svm, satisfaction.df,main="",col=c('grey','black"')) 


从 下 面 的 图 中 可 以 看 出 ,决策 线 是 在 象限 右边 部 分 附近 的 曲线 ， 友 新 日 接近 1 (是 的 ) 的 区 域 ， 星 期 几 接近 4、5、6、7 (一 
周 的 最 后 几 天 ) 。 所 以 我 们 可 以 解释 说 ， 人 们 对 友 薪 日 和 周末 都 感到 满意 。 然 而 ， 这 是 一 个 非常 低 维度 的 示例 (呈现 在 两 个 轴 
上 ) ， 是 用 来 说 明 这 个 概念 的 。 较 高 维度 的 例子 不 是 那么 容易 解释 : 


SVM 分 类 





2.6.4 决策 树 


决策 树 算法 很 受 欢 迎 ， 因 为 它们 可 以 粗略 地 等 同 于 在 某 些 业务 环境 中 使 用 的 If/Then/Else 规 则 ， 并 且 相 对 容易 向 管 理 者 解 


释 。 决 策 树 不 仅 用 于 分 类 。 当 它们 用 于 预测 数字 结果 时 ， 也 称 为 回归 树 。 决 策 树 使 用 的 基本 概念 是 根据 最 佳 分 割 点 将 树 的 每 个 节 
扎 分 成 两 部 分 。 通 过 添加 更 多 的 叶子 证 点 ， 树 不 断 地 增长 ， 直 到 它 不 能 进行 任何 额外 的 分 多 ， 这 提高 了 辨别 所 有 决策 的 能 
随机 森林 


请 注意 ， 随 机 森林 (Random Forests，tm) 是 Leo Breiman 和 Adele Cutler 的 商标 ， 并 专门 授权 Salford Systems 友 行商 
业 版 软件 。 


MA 


直 
0 


/1 


决策 树 有 一 个 问题 是 ， 它 们 高 度 依 赖 于 最 初 选择 的 具体 变量 。 用 户 可 以 用 一 个 稍微 有 所 不 同 的 初始 变量 集 ， 最 终 得 到 一 个 同 


样 有 效 的 解决 方案 ， 尽 管 可 能 是 一 个 不 同 的 解决 方案 。 


随机 和 森林 算法 是 对 决策 树 进 行 改进 的 一 个 尝试 。 随 机 和 森林 随机 选择 变量 和 子 样本 ， 以 生成 多 个 (甚至 数 干 个 ) 独立 的 决策 
树 。 在 生成 所 有 决策 树 之 后 再 对 所 有 不 同 树 生 成 的 效果 进行 平均 的 共识 预测 。 


为 了 确定 共识 ， 可 以 指定 在 算法 中 使 用 简单 的 多 数 投票 万 案 。 我 们 将 首先 在 titanic 数 据 集 上 运行 两 棵 简单 的 决策 树 ， 然 后 将 
结果 与 使 用 随机 森林 获得 的 结果 进行 比较 ， 以 便 了 解 它 的 工作 原理 。 


示例 : 单 棵 决策 树 与 随机 森林 之 间 的 比较 


首先 ， 安 装 titanic 包 并 将 训练 数据 集 分 配给 数据 帧 : 


lnstall.packages ("titanic") 


lJibrary (titanic) 
titanic < 一 titanic train[complete.cases (titanic train), | 


年 龄 决策 树 
生成 一 棵 简单 的 决策 树 ， 使 用 Age 作 为 一 个 目 变 量 以 预测 乘客 是 个 能 够 垃 仔 ， 然 后 绘制 这 棵 树 的 图 形 : 


Library lirpartl 
librarv{irpart plot) 

set.seed(123) 

ft <- rpart (as.factor(Survived) ~ Age, 
rpart .plot (fit,extra=102) 


data=titanic, method="class") 


0 
4241714 


0 
4101667 
93% 





这 棵 简单 的 树 准确 度 如 何 ? 只 是 为 了 活动 一 下 大 脑 ， 我 们 来 手动 计算 一 下 。 

在 控制 全 ,计算 正确 的 分 类 百分比 。 每 个 类 正确 预测 的 数量 显示 为 前 面 图 中 每 个 节操 的 第 一 个 数字 。 第 二 个 数字 是 分 配给 该 
类 的 思 数 。 

通过 将 正确 预测 的 咏 和 相 加 ， 除 以 预测 的 思 数 ， 通 过 控制 台 的 计算 得 出 ， 这 个 简单 的 模型 在 62% 的 时 候 是 正确 的 。 但 是 可 能 
会 问 ， 树 的 左边 节点 中 给 出 的 93% 是 什么 。 这 个 表示 该 节点 在 指定 乘客 年 龄 小 于 6.5 的 时 候 得 到 的 正确 分 类 的 比率 : 


> (410+33) / nrow (titanic) 
以 下 是 输出 : 
[1 | 0.6204482 


一 棵 蔡 代 的 决策 树 
假设 我 们 任意 选择 另 一 个 简单 的 决策 树 模 型 ， 这 次 我 们 将 根据 客运 级 别 的 变量 来 预测 乘客 是 否 拉 存 下 来 : 


Pclass >= 2.5 


0 8 
<10 | 3995 Pclass >= 1.5 


90 11/3 122 1 186 
24%0 20% 





这 是 一 棵 稍微 复杂 一 点 的 树 ， 因 为 它 有 4 个 分 支 和 3 个 终端 节 操 。 现 在 ,我 们 通过 将 3 个 书 点 的 正确 分 类 数量 相 加 ， 并 将 其 除 
以 忌 行 数 来 计算 模型 的 正确 分 类 率 ， 和 我 们 刚才 做 的 一 样 : 


> (270+90+122) / nrow (titanic) 
以 下 是 输出 : 
[二 VO.6/o01 
> 
这 个 简单 的 模型 更 好 ， 有 67% 的 正确 分 类 。 
随机 森林 模型 


现在 ， 我 们 来 运行 一 个 随机 森林 模型 。 我 们 将 计算 出 2000 棵 决策 树 ， 只 是 为 了 演示 ， 我 们 选择 了 Age、Pclass (客运 级 别 ) 
和 Fare 作 为 目 变 量 。 随 机 森林 会 随机 选择 所 选 的 观察 以 及 所 选 观察 的 样本 数 ， 因 此 你 无 法 预知 将 获得 哪些 具体 的 树 。 你 甚至 可 
能 得 到 刚刚 在 前 面 的 两 个 示例 中 生成 的 树 之 一 ! 

library (randomF orest) 

set.seed(123) 

fit <—- randomForest (as.factor(Survived) ~ Age + Pclass + Fare, 

data=titanic, 


lmportance=TRUE, 
ntree=2000) 


随机 森林 还 具有 预测 功能 ， 与 第 1 草 中 使 用 的 预测 函数 具有 相似 的 语法 。 我 们 将 使 用 此 立 数 生成 预测 : 


prediction.rf <- predict (fit, titanic) 


一 旦 生成 了 预测 ， 可 以 构建 一 个 包 合 预测 结果 以 及 从 原始 数据 获得 的 实际 生存 结果 的 数据 帧 : 


又 < 一 
data.frame (predict .rf=as.factor (prediction.rf),survived=titanics$sSurvived) 


现在 我 们 可 以 运行 一 个 简单 的 table () 遂 数 ， 它 将 根据 预测 值 对 实际 结果 的 数量 进行 计数 。 


table (x$predict.rf,x$survived) 


以 下 是 输出 : 

0 1 
0 384 118 
1 40 172 


表 中 的 数字 反映 了 以 下 预测 : 


Row 1,Column 
Row 1,Column 


1) Passenger predicted NOT to survive & DID NOT survive 
2) Passenger predicted NOT to survive DID survive 

Row 2,Column 1) Passenger predicted to survive and DID NOT survive 
Row 2,Column 2) Passenger predicted to survive and DID survive 


基于 这 个 表格 和 和 解释， 我们 可 以 看 到 在 (第 1 行 ， 第 1 列 ) 和 (第 2 列 ， 第 2 列 ) 中 的 计数 表示 正确 的 预测 ， 因 为 预测 与 实际 
结果 一 致 。 


要 得 到 预测 的 总 数 ， 我 们 将 计算 正确 计数 的 总 数 ， 然 后 将 其 除 以 行 数 。 我 们 可 以 在 控制 合 做 数学 计算 : 
(384+172) / nrow(titanic) 

以 下 是 输出 : 

[| Qs TEBTILLS 

使 用 随机 森林 ， 正 确 的 预测 率 已 经 提高 到 77%。 

随机 森林 与 决策 树 


尽管 随机 森林 比 单 独 分 割 的 树 的 预测 效果 更 好 ， 然 而 此 处 也 出 现 了 可 解释 性 的 问题 。 随 机 森林 不 产生 可 见 的 决策 树 ， 并 且 在 
计算 上 随机 森林 可 能 人 花费 相当 长 的 时 间 ， 因 为 它们 需要 从 许多 变量 中 生成 和 优化 很 多 棵 树 。 有 蔚 人 认为 随机 森林 像 个 黑 盒 算法 ， 
因为 有 很 多 方法 可 以 优化 已 ， 底 层 方法 却 不 容易 透明 。 但 是 ， 如 果 你 的 目标 是 极 高 的 准确 度 ， 那 么 它 是 一 种 最 优 方 法 ， 可 以 非常 
准确 。 


变量 重要 性 图 


除了 预测 精度 外 ， 随 机 和 森林 的 另 一 个 常用 用 法 是 使 用 varImp () 函数 进行 变量 选择 。 变 量 重要 性 图 在 有 许多 输入 变量 的 情 
况 下 会 很 有 用 ， 但 是 我 友 现 当 变 量 数目 尚 可 管理 时 ， 它 的 价值 是 有 限 的 。 


为 了 演示 我 们 的 示例 数据 ， 这 里 用 varlmp () 鸳 数 把 Fare、Age 和 Pclass 按 重要 性 的 顺序 显示 。 有 好 几 种 方法 可 以 做 到 这 
一 点 ， 但 是 我 将 通过 一 个 名 为 MeanDecreaseGini 的 统计 量 来 显示 它 。 这 个 统计 量 是 如 何 计算 的 并 不 重要 ， 但 需要 说 明 的 是 ， 此 


处 计算 的 变量 重要 性 与 该 变量 出 现在 多 少 棵 不 同 树 中 ， 以 及 它 能 够 在 多 大 程度 上 决定 不 同 树 叉 间 的 走向 相关 联 。 我 们 将 在 后 面 的 
草书 中 继续 讨论 决策 树 和 Gini。 


VarImPPJ et (fit,type=2) 


Age ennnennnenn mmmmenn mm 


Pclass = 


20 30 40 


MeanDecreaseGlinl 





2.6.5 ” 降 维 技 术 


你 经 党 要 检查 数 百 甚至 数 干 个 变量 。 减 少 维度 是 一 种 可 用 于 大 幅度 减少 需要 检查 的 行 或 变量 数量 的 技术 。 维 度 减少 的 前 提 是 
存储 重复 ， 也 就 是 说 ， 有 多 个 变量 其 实测 量 的 是 同样 的 事物 。 例 如 ， 阅 读 、 写 作 、 数 学 和 音乐 能 力 分 数 在 预测 大 学 GPA 中 都 是 
重要 的 ,但 是 如 果 你 公使 用 音乐 能 力 分 数 与 写作 分 数 相 结 合 ， 束 可 以 实现 与 同时 使 用 全 部 四 项 分 数 一 样 高 的 预测 准确 率 。 而 且 这 
样 也 可 能 更 容易 解释 。 这 束 是 为 什么 要 使 用 降 维 技术 的 一 个 例子 。 


当 你 要 减少 实际 的 变量 数量 时 ， 请 考虑 使 用 主 成 分 。 你 会 使 用 相同 数量 的 观察 ， 但 会 控制 查看 的 变量 数量 ( 主 成 分 部 分 ) 。 


当 你 想 要 降低 行 的 维度 时 ， 请 使 用 聚 类 方法 。 


2.6.6 ” 主 成 分 


主 成 分 分 析 (PCA) 人 在 变 量 数 量 太 多 ， 并 且 和 希望 将 所 有 变化 捕获 到 一 个 或 两 个 变量 中 的 情况 下 很 有 用 。 主 成 分 分 析 使 用 息 阵 
代数 来 创建 所 有 变量 的 线性 组 合 。 


PCA 还 用 于 查看 哪些 变量 在 每 个 主 成 分 中 具有 最 大 影响 ， 因 此 通常 当 PCA 分 析 表 明 某 些 变量 对 结果 几乎 没有 影响 时 ， 它 通常 
可 以 航 寺 前 。 


使 用 身高 和 体重 变量 为 例 可 以 很 好 地 说 明 这 上 后。 由 于 身高 和 体重 是 正 相 关 的 ， 选 择 仅 使 用 身高 或 体重 作为 目 变 量 来 预测 身体 
质量 可 能 不 会 有 太 大 差异 。 因 此 ， 我 们 可 以 创建 一 个 新 的 变量 ， 它 是 一 个 局 度 和 重量 的 线性 组 合 ， 并 将 其 用 作 变 量 。 


聚 类 是 将 数据 分 组 到 不 同类 中 的 方法 ， 以 达到 每 个 类 彼此 相似 的 目标 。 可 以 使 用 多 种 方法 来 定义 相似 性 。k 均 值 聚 类 或 许 是 
行 的 聚 类 方法 。 访 方法 使 用 测量 的 距离 将 数据 观测 值 分 配给 最 距离 最 近 的 类 。 聚 类 经 常用 于 市 场 营销 领域 ,用 来 开 友 不 同 的 


聚 类 是 一 种 无 监督 的 算 ; 去 ， 是 主观 的 。 你 可 以 预先 指定 希望 聚 类 的 组 数 。 这 个 数字 在 某 种 程度 上 是 任意 的 ， 如 果 目 标 是 具有 
可 解释 性 ， 它 可 以 产生 不 同 的 解释 。 


散 点 图 通常 用 于 显示 仪 有 两 个 变量 的 数据 的 聚 类 (一 个 在 x 轴 上 ， 另 一 个 在 y 轴 上 ) 。 


下 面 是 一 些 散 点 图 的 示例 ， 可 以 通过 查看 哪些 数据 点 聚集 在 一 起 来 选择 聚 类 。 


10 15 20 25 





右 图 显示 了 5 个 不 同 的 聚 类 。 你 可 以 看 到 ， 变 量 x 的 非常 低 的 值 往往 其 变量 y 的 值 也 非常 小 。 然 而 ， 左 边 的 图 里 应 该 有 哪些 聚 
类 ， 残 有 扣 不 清晰 了 。 有 时，x 的 低 值 与 y 的 低 值 相关 ， 但 有 时 它们 与 y 的 高 值 相关 。 没 有 明显 的 分 组 。 你 看 到 了 什么 呢 ? 你 看 到 
的 是 2 个 、3 个 或 者 更 多 聚 类 ， 还 是 没有 聚 类 ? 这 真 的 是 说 不 出 来 的 ， 这 丈 是 主观 性 起 作用 的 地 方 。 


2.6.8 时间 序列 模型 


包含 相互 之 间 不 独立 的 数据 观察 的 问题 ， 例 如 基于 时 间 的 数据 ， 需 要 做 特殊 处 理 ， 因 为 在 时 间 上 友 生 的 事件 表现 出 一 种 叫 
作 目 相关 的 属性 。 它 的 意思 是 目 变 量 都 取决 于 该 变量 的 先前 值 。 许 多 数据 扩 术 都 基于 假设 所 有 值 都 是 役 此 独立 的 ， 因 此 人 们 开 友 
了 特殊 的 技术 用 于 处 理 基 于 时 间 的 数据 。 


指数 平滑 法 基于 一 个 简单 的 概念 ， 即 最 近 的 数据 是 未 来 的 最 佳 预 测 因 子 。 指 数 平滑 技术 允许 你 调整 参数 ， 以 便 可 以 决定 最 近 
的 数据 与 较 旧 数据 的 权重 。 它 适用 于 许多 时 间 序 询问 题 。 


时 间 序 列 模型 也 可 以 基于 周期 性 、 趋 势 性 、 季 节 性 、 一 次 性 发 生 或 因果 因素 。 有 一 种 更 先进 的 时 间 序 列 方法 叫 作 ARIMA 或 
Box-Jenkins 模 型 ， 它 吸收 了 时 间 序 列 和 回归 模型 的 元 素 。 


2.6.10 ”文本 挖掘 技术 


大 多 数 传统 预测 分 析 技术 最 初 是 为 了 用 于 结构 化 数据 而 设计 的 。 然 而 ， 随 着 文本 挖掘 扩 术 的 出 现 ， 这 些 近 术 已 经 友 生 了 变 
化 ， 能 够 处 理 和 可 视 化 非 结构 化 数据 。 下 面 是 一 些 很 流行 的 工具 : 


“ 词 云 : 词 云 是 词 频 或 概念 的 图 形 表 示 ， 并 且 是 一 种 可 以 将 语料库 (文本 文档 集合 ) 中 的 重要 词语 呈现 给 管理 层 的 简单 工 


下 面 是 一 个 从 林肯 的 葛 底 斯 堡 演 说 (Bliss Copy) (Gettysburg Address，1863 年 ) 生成 一 个 词 云 的 例子 。 要 限制 显示 的 
单词 的 数量 ， 可 以 设置 min.freq=2， 表 示 只 显示 出 现 过 两 次 以 上 的 单词 。 请 注意 ， 输 出 也 会 消除 一 些 常 用 词语 (停止 词 ， 例 如 
a、and、it 等 ) ， 通 常 不 会 增加 解释 。 


linstall.packages ("wordcloud") 

linstall.packages ("RColorBrewer") 

library ("wordcloud") 

lincoln <- "Four Score and seven years ago our fathers brought forth on 
this continent, a new nation, conceived in Liberty, and dedicated to the 
proposition that all men are created equal. Now we are engaged in a great 
ClVvil war, testing whether that nation, or any nation so concelived and so 
dedicated, can long endure. We are met on a great battle-field of that war. 
We have come to dedicate a portion of that field, as a final resting place 
for those who here gave their lives that that nation might live. It is 
altogether fitting and proper that we should do this. But, in a larger 
sense, we can not dedicate -- we can not consecrate -—- we can not hallow -— 
this ground. The brave men, living and dead, who struggled here, have 
consecrated it, far above our poor power to add or detract. The world will 
little note, nor long remember what we say here, but it can never forget 
what they did here. It is for us the living, rather, to be dedicated here 
to the unfinished work which they who fought here have thus far so nobly 
advanced. It 1is rather for us to be here dedicated to the great task 


remaining before us -- that from these honored dead we take increased 
devotion to that cause for which they gave the last full measure of 
devotion -- that we here highly resolve that these dead shall not have died 
in vain -— that this nation, under God, shall have a new birth of freedom -一 


- and that government of the people, by the people, for the people, shall 
not perish from the earth." 

set.seed (123) 

wordcloud(lincoln, min.fregdq=2,scale=c(3, .5),random.order = FALSE) 


wordcloud 的 输出 以 单词 的 大 小 来 表示 该 词 在 文本 中 出 现 的 频率 高 低 : 


QeVvotIon 
thec reat rathe 


a 





“ 二 元 分 析 : 词 云 通 第 用 来 显示 段落 或 文档 中 单个 单词 的 频率 ， 而 不 会 分 析 这 些 单词 周围 的 词语 。 与 之 相对 的 是 ， 二 元 分 析 
则 是 将 两 个 连续 词 的 频率 看 作 一 对 。 一 般 来 讲 ， 通 过 查看 这 些 连 续 的 单词 在 被 分 析 的 文档 的 各 个 部 分 中 一 起 出 现 的 次 数 ， 可 以 得 
出 更 多 的 信息 。 这 个 双 词 组 的 概念 也 可 以 扩展 到 一 次 3 个 词 ， 一 次 4 个 词 ， 。 在 这 种 情况 下 ， 它 们 被 称 为 ngtams， 意 味 着 分 析 
在 一 起 出 现 的 任意 数量 的 一 系列 单词 。 
例如 ， 下 表 显 示 了 在 前 面 那 段 演讲 中 出 现 两 次 的 4 个 双 词 ， 以 及 1 个 出 现 了 三 次 的 双 词 (连续 词 ) 。 请 注意 ， 这 个 表 中 包括 
了 通 意 在 确定 频率 计数 之 前 束 被 删除 掉 的 标点 符号 。 标 点 符号 、 数 字 和 小 部 分 词语 (例如 the、them、a 或 者 an) 的 统计 通常 在 
执行 文本 分 析 之 前 执行 。 这 些 航 统称 为 停止 词 。 






































:下面 是 一 个 例子 ， 它 使 用 ngram 包 的 getphrasetable 来 提取 所 有 可 能 的 ngram。 我 们 使 用 n=2 来 指定 一 个 bigram。 


install.packages ("ngram") 

library (ngram) 

df <-get.phrasetable ( ngram(lincoln, n=2) )) 
View (df) 


从 View 命 令 输 出 中 可 以 看 出 ，the people 出 现 了 3 次 : 


CC 


-oo 








主题 定义 : 主题 定义 的 目标 是 将 文档 分 类 为 一 组 类 别 ， 就 像 我 们 在 处 理 非 文本 问题 时 一 样 。 例 如 ， 如 果 客 户 打 电话 ， 然 后 
开始 抱怨 产品 的 可 靠 性 ， 若 他 只 是 简单 地 获取 有 关 产 品 的 信息 ， 我 们 可 能 希望 将 客户 引导 到 其 他 的 呼叫 中 心 区 域 。 文 本 挖 握 的 一 
个 重要 组 成 部 分 是 能 够 解析 非 结 构 化 的 数据 ， 并 学 习 如 何 挖掘 这 些 数据 中 的 重要 词汇 。 


聚 类 : 其 他 传统 技术 〈 如 聚 类 ) 也 可 以 应 用 于 自由 形式 的 文本 。 然 而 在 许多 情况 下 ， 文 本 数据 将 需要 做 些 改 装 ， 并 且 在 应 
用 传统 的 预测 分 析 技 术 〈 如 聚 类 ) 之 前 ， 首 先 需 要 将 它们 预 处 理 为 结构 化 格式 。 我 们 会 介绍 如 何 将 非 结 构 化 文本 转换 为 被 称 为 频 
率 和 矩阵 的 结构 化 形式 ， 这 样 你 就 可 以 执行 传统 的 预测 分 析 技 术 。 


. 情绪 分 析 是 衡量 个 人 或 团体 对 产品 、 服 务 或 政策 的 意见 (无 论 是 正面 还 是 负面 ) 的 技术 。 


下 面 这 个 示例 ， 将 对 呼叫 中 心 的 各 种 简短 评论 进行 情绪 分 析 预 测 。 它 使 用 朴素 贝 叶 斯 模型 根据 前 10 个 评论 预测 最 后 5 条 评 
论 ， 这 些 评论 已 被 预先 手动 分 类 为 属于 正面 的 情绪 或 负面 的 情绪 。 


install.packages ("RTextTools") 
librarv(iRIext To0Lls) 
library (e1071) 


verbatim = 
riendl 


c('Agent was Very helpful', ‘positive'), 

c('Would buy the product again', ‘positive'), 

c('Satisfied with response', 'positijive'), 

c('Helped me to choose between the two offers', ‘positive'), 
c('Defintely would recommend to a friend', ‘positive'), 
c('Terrible customer service', ‘negative'), 

c('not recommended', ‘negative'), 

c('Agent 七 ok too much time', ‘negative'), 

c('Waiting a long time for customer service', ‘negative'), 
Cc('Not satisfied with response', ‘negative'), 

Cc('Not satisfied at all', ‘negative'), 

c('Would not recommend', ‘negative'), 

c('Helpful customer support', ‘positive'), 

c('Great product support', ‘'positive'), 

c('excellent product', ‘positive') 


) 
# build Term document matrix 
TDM .mat= 
as.matrix (create_ matrix(verbatiml[,1],1language="english",removeStopwords=TRU 
E, removeNumbers=TRUE, stemWords=FALSE)) 
classifier = naiveBayes (IDM.mat [1:10,], as.factor (verbatim[1:10,2]) ) 
# test the model 
predicted = predict (classifier, TDM.mat [11:15,]); 


Table () 尔 数 会 输出 最 后 五 次 客 己 评论 的 预测 。 五 个 评论 中 有 三 个 的 分 类 是 正确 (正确 率 60%) 。60% 的 正确 率 是 不 是 应 
该 看 作 足 够 好 ”这 取决 于 你 将 用 这 个 模型 做 什么 事情 。 如 果 你 能 够 识别 负面 评论 ， 你 可 能 希望 通过 各 种 渠道 与 客户 联系 ， 并 冯 试 
赢得 客户 。 另 一 方面 ， 积 极 评 价 意味 着 客户 给 予 你 应 得 的 好 评 ， 也 许 你 应 该 考虑 给 客户 提供 恨 好 的 折扣 。 


table(verbatim[l11:15, 2], predicted) 


> table(verbati1m[11:15, 2], predicted) 
predicted 
negative pos1t1Ve 


negat1Ve 1 ] 
pos1t1Ve 1 ) 





2.7 ”第 五 步 : 评估 


模型 评估 涉及 你 刚刚 开 友 的 模型 现在 或 者 将 来 的 准确 性 或 有 用 性 。 模 型 评估 可 以 采取 不 同 的 形式 。 有 些 比 较 主 观 ， 以 领域 为 
导向 ,例如 由 领域 专家 来 监督 其 执行 效果 ， 有 些 则 比较 倾 同 于 技术 。 有 许多 指标 和 流程 可 用 于 评估 模型 。 在 基本 层面 上 ， 有 许多 
统计 数据 (其 中 有 些 称 为 AlIC、BIC 和 AUC) ， 骨 在 以 单一 指标 表示 模型 的 优 品 。 然 而 ， 这 些 指标 本 身 不 能 将 预测 模型 的 目的 和 
应 用 传达 给 更 大 的 受众 ， 并 且 通 常 这 些 指标 是 互相 ;中 突 的 。 需 要 一 些 上 下 叉 才 能 理解 。 有 人 会 认为 ， 也 可 能 有 人 会 做 出 一 个 完美 
的 预测 模型 ， 同 时 这 个 模型 又 不 能 同 更 大 的 受众 传达 其 目的 和 应 用 。 在 我 看 来 ,不管 评 估 指 标 怎 么 样 ， 这 都 是 一 个 坏 的 模型 。 然 
后 还 要 考虑 性 能 因素 。 模 型 可 能 在 样本 数据 上 工作 得 很 好 ， 但 是 在 现实 世界 中 应 用 的 话 速度 太 慢 ， 无 法 实用 。 简 而 言 之 ， 你 不 应 


该 用 单一 指标 来 进行 模型 评估 。 最 好 的 方法 是 从 多 个 角度 来 审视 已， 然后 给 出 一 个 客观 的 结果 。 


2.7.1 ”模型 验证 


预测 分 析 模 型 验证 的 基本 前 提 是 你 在 数据 的 一 个 子 集 ( 称 为 训练 数据 集 ) 上 开 友 你 的 模型 ， 然 后 证 明 你 的 模型 有 能 力 在 数据 
的 另 一 个 子 集 上 成 功 预测 类 似 的 结果 。 数 据 的 另 一 个 子 集 很 重要 ， 一 般 称 为 测试 数据 集 。 测 试 数据 集 也 叫 作 保留 样本 。 训 练 和 测 
试 数据 集 在 任何 建 模 开始 之 前 随机 确定 ， 数 据 从 不 改变 。 验 证 数据 是 第 三 个 数据 集 ， 有 时 用 于 进一步 测试 数据 的 有 效 性 。 它 通常 
是 建 模 过 程 中 没有 使 用 过 的 数据 ， 并 在 一 个 模型 被 开 友 并 做 确定 为 最 佳 模型 之 后 引入 使 用 。 


下 面 的 示例 代码 要 创建 一 个 简单 的 朴素 贝 叶 斯 模型 ， 并 创建 一 个 confusionMatrix (分 类 错误 表 ) ， 它 显示 了 多 少 预 测 是 正 
确 的 分 类 。 对 于 iris 数 据 集 ，92% 的 预测 是 正确 的 。 请 注意 ， 在 这 个 例子 中 ， 我 们 使 用 的 是 混 清 算 阵 ， 它 是 caret 包 的 一 部 分 ， 
而 我 们 不 必 像 在 前 面 的 例子 中 那样 手动 计算 精度 : 


requlire (caret) 

requijre (e1071) 

data (i1ris) 

set.seed(123) 

partition.index <- createDataPartition(iris$Species, p=.5, list=FALSE) 
Training <- iris[ partition.index,] 

test <—- 1iris[-partition.1index,] 

model <—- nalveBayes (Species~.,data = Training) 
predictions <- predict (model, test[,1:4]) 

# summarize results 

% confusionMatrix (predictions, test[,5]) 


> confusionMatrix(predictions, test[,S]) 
Confusion Matrix and Statistics 


Reference 
Prediction setosa versicolor virginica 
setosa 29 0 0 
versicolor 0 22 3 
virginica 0 3 22 


Overall Stat1ist1ics 


Accuracy : 0.92 
95% CI : (0.834, 0.9701) 
No Information Rate : 0.3333 
P-Value [Acc > NIR] : < 2.2e-16 
Kappa : 0.88 


Mcnemar ' s Test P-Value : NA 
Sstatistics by Class : 


Class: setosa Class: versicolor Class: virginica 


Sensitivity 1.0000 0.8800 0.8800 
Sspecificity 1.0000 0.9400 0.9400 
Pos Pred Value 1.0000 0.8800 0.8800 
Neg Pred Value 1.0000 0.9400 0.9400 
Prevalence 0 .3333 0 .3333 0 .3333 
Detection Rate 0 .3333 0 .2933 0 .2933 
Detection Prevalence 0.3333 0.3333 0.3333 
Balanced Accuracy 1 .0000 0.9100 0.9100 


> | 


2.7.2 曲线 下 面积 


曲线 下 面积 (AUC) 是 另 一 个 流行 的 评估 模型 优 务 的 万 法 。 历 史上 ， 这 一 度量 方法 是 在 第 二 次 世界 大 战 期 间 开 友 的 。 原 来 
的 术语 是 受 试 者 工作 特征 曲线 (ROC) ， 其 最 初 的 目的 是 确定 雷达 屏幕 上 的 可 视 信号 是 政 方 舰 只 还 


AUC 告 诉 我 们 的 一 点 是 真 阳 性 与 假 阳 性 的 比例 。AUC 的 值 是 0 和 1 之 间 的 数字 ， 通 过 数学 公式 来 计算 获得 。0.5 的 AUC 可 以 认 


三 | 
EE 


随机 噪声 。 


为 是 随机 分 类 。 需 要 找 的 是 在 左上 象限 附近 的 点 。 这 个 象限 是 有 利 条 件 趋同 的 区 域 : 具有 低 假 阳性 和 高 真 阳 性 。 


AUC 是 分 类 误 关 中 涉及 的 权衡 折 中 的 一 个 很 好 的 衡量 标准 。 但 是 ， 


类 错误 的 成 本 。 


使 用 titanic 数 据 集 计 算 ROC 曲 线 


下 面 这 个 示例 是 用 于 绘制 泰坦 尼克 数据 集 上 的 ROC 曲 线 的 ， 它 使 用 简单 逻辑 回归 模型 预测 个 体 幸 存 与 否 : 


不 要 把 它 视 为 绝对 的 标准 。 使 用 AUC 时 应 该 考虑 一 下 分 


linstall.packages ("titanic") 
二 全 号 .Dackadges ("ROCR™) 


library (titanic) 
library (ROCR) 


titanic < 一 titanic train[lcomplete.cases (titanic train), | 


model <- glm(as.factor(Survived) ~ Sex+Aget+tPclass, data=titanic, 
family="binomial") 

pred <- prediction(predict (model), titanic$Survived) 

perf <- performance (pred, "tpr","fpr") 

plot (pert) 

abline (a=0, b=1) 


AUC 曲 线 与 预测 结果 的 概率 的 各 种 截止 点 值 一 起 绘制 。 对 角 线 参考 线 代表 一 个 随机 模型 。 风 辑 模 型 曲线 下 的 面积 约 占 思 面 
积 的 75%。 


终 坦 尼克 模型 迎 辑 回归 的 AUC 曲线 


0.2 0.4 0.6 0.8 
假 阳性 率 


如 前 文 所 述 ，AUC 用 于 比较 模型 的 优 邹 。 以 下 是 仪 使 用 Age 作 为 预测 因子 的 逻辑 模型 的 AUC: 





model2 <- glm(as.factor(Survived) ~ Age, data=titanic, family="binomial") 
pred <- prediction(predict (model2), titanics$Survived) 

perf <- performance (pred, tpr","fpr") 

plot (perf,main="AUC for Logistic Regression Titanic Model - Age Only") 
abline (a=0,b=1) 


从 图 形 中 可 以 一 眼看 出 来 ， 这 个 单 变量 异型 几乎 没有 预测 能 力 。AUC 曲 线 近似 于 随机 对 角 绪 参考 线 ， 表 示 该 模型 无 预测 能 
力 。 


泰坦 尼克 模型 逻辑 回归 的 AUC 曲线 : 仅 年 龄 
1.0 
0.8 
0.6 


0.4 
0.2 


0.0 





2.7.3 ”样本 内 和 样本 测试、 二 进 测试 


在 模型 开 友 完成 之 后 ， 我 们 认为 最 好 的 做 法 是 使 用 其 他 数据 来 验证 其 结果 。 


2.7.4_ 训练 /测试 /验证 数据 集 





训练 数据 是 用 于 构建 预测 模型 的 数据 。 测 试 数据 (也 称 为 保留 样本 ) 是 在 训练 过 程 中 未 使 用 的 数据 。 测 试 数据 用 于 查看 训练 
后 的 模型 是 否 能 将 其 结果 推广 到 另 一 个 不 参与 模型 训练 的 数据 集 。 


然而 ， 即 使 测试 数据 集 不 用 于 模型 的 训练 ， 它 的 内 容 在 模型 开 友 过 程 中 通常 对 建 模 者 也 是 可 见 的 。 


验证 数据 集 是 第 三 个 数据 集 ， 有 时 用 于 进一步 对 模型 结果 进行 基准 测试 。 验 证 数据 也 是 模型 之 前 从 未 见 过 的 数据 ， 这 是 在 模 
型 通过 测试 数据 集 的 验证 之 后 ， 在 部 署 之 前 引入 的 。 验 证 数据 集 通常 来 自 与 原始 训练 /测试 数据 源 完全 不 同 的 来 源 ， 目 标 是 对 模 


型 结果 提供 第 二 个 佐证 ， 或 者 也 可 能 驳斥 这 个 结果 。 
除了 训练 、 测 试 和 验证 数据 外 ， 你 还 会 听 人 到 一 些 其 他 的 相关 术语 : 
样本 内 数据 是 指 用 于 拟 合 ( 建 模 ) 数据 并 用 于 训练 数据 集 的 数据 ; 
` 样本 外 数据 是 指 没 有 用 于 拟 合 数据 的 数据 。 


这 意味 着 样本 外 数据 通常 仪 在 测试 和 验证 数据 集 上 使 用 。 验 证 数据 的 另 一 种 技术 称 为 k 折 交叉 验证 。 这 种 技术 会 使 用 多 个 折 
蔷 来 定义 样本 内 和 样本 外 数据 集 的 不 同 子 集 ， 以 执行 模型 测试 的 多 次 和 迭代， 以 便 随机 选择 训练 和 测试 数据 。 


2.7.5 ”时 | 间 序 列 验 证 
当然 时 间 序 列 模 型 也 使 用 这 个 概念 。 然 而 ， 时 间 段 可 以 单独 用 于 分 塞 测 试 和 训 | 练 数据 ， 例 如 ， 可 以 利用 过 去 5 年 的 历史 数据 
(训练 ) 来 构建 一 个 模型 ， 然 后 对 当前 第 6 年 的 数据 (测试 或 验证 数据 ) 进行 预测 。 


这 种 变化 是 常见 的 。 前 进 测试 建 模 师 将 用 第 1 ~ 5 年 的 数据 开发 时 间 序 列 模型 ， 用 第 6 年 数据 测试 结果 ， 然 后 用 2 ~ 6 年 的 数据 
开发 同类 模型 ， 然 后 用 第 7 年 的 数据 测试 结果 。 这 个 过 程 将 一 直 重 复 下 去 ， 直 到 没有 更 多 的 数据 来 测试 。 在 上 述 所 有 情况 下 ， 该 
模型 都 是 建立 在 样本 数据 的 基础 上 ， 并 对 类 似 于 k 折 验证 的 样本 外 数据 进行 测试 。 


2.7.6 “最 佳 冠 军 模 型 的 基准 测试 


在 冠军 /挑战 者 模型 的 开 友 中 ， 当 前 有 部 署 好 的 称 定 的 冠军 模式 ， 并 可 以 在 其 中 对 未 来 的 任何 结果 进行 基 装 测试 。 这 允许 你 
丢弃 远 远 低 于 此 基准 的 任何 模型 的 结果 。 如 果 现 在 没有 冠军 模型 存在 ， 你 可 以 使 用 诸如 随机 森林 或 SVM 的 算法 开 友 一 个 理论 最 
佳 模 型 ， 并 将 其 用 作 可 能 达到 的 但 (假设 ) 不 可 实施 的 基准 。 根 据 你 刚 开 友 了 模型 的 结果 ， 看 看 它 是 否 接 近 这 些 基准 。 如 果 是 这 
样 ， 结 果 可 能 实际 上 是 无 法 得 到 的 ， 你 可 能 需要 再 看 看 其 他 方法 。 


2.7.7 ”专家 意见 : 人 与 机 器 


这 通常 是 对 于 分 类 问题 来 做 的 ， 而 且 它 实际 上 使 人 和 机 器 对 立 起 来 。 如 果 一 位 专家 对 你 的 模型 的 输出 有 很 大 的 认同 ， 那 就 是 
区 


证 明 它 有 效 的 另 一 个 理由 。 


2.7.8 ”元 分 析 


有 很 多 文章 是 天 于 垃圾 科学 ， 以 及 总 是 有 另 一 项 研究 产生 与 乙 前 研究 相反 的 结果 。P 值 操纵 是 执行 此 操作 的 一 种 方法 。 在 前 
文中 我 们 已 经 提 到 过 元 数据 ， 融 是 天 于 效 据 的 数据 。 


元 分 析 是 对 研究 的 研究 ， 该 研究 会 研究 所 有 以 前 的 分 析 ， 并 报告 以 前 的 分 析 在 整体 上 都 不 得 不 同意 的 那些 结论 。 如 果 你 的 分 


析 与 过 去 执行 的 其 他 类 似 分 析 结 果 一 致 ， 那 么 将 有 更 多 的 证 据 文 持 你 的 模型 。 


2.7.9 飞镖 板 方法 


在 某 尝 情况 下 ， 你 不 必 只 用 一 个 模型 来 预测 结果 。 如 果 你 接受 所 有 模型 都 是 有 用 的 这 一 观点 ， 为 什么 不 同时 使 用 其 中 的 各 干 
个 ”这 个 思路 广泛 应 用 于 襄 销 活动 管理 和 金融 投资 组 合 管理 。 有 时 不 用 把 所 有 的 鸡蛋 放 人 在 一 个 篮子 里 。 一 个 模型 可 能 在 一 个 月 内 
无 法 做 出 有 效 预 测 ， 但 可 以 被 其 他 模型 的 积极 结果 抵消 。 类 似 的 组 合 建 模 也 可 以 同时 纳入 多 种 不 同 的 模型 ， 但 经 常会 产生 一 个 单 
一 的 结果 ， 并 且 可 能 会 导致 过 拟 合 。 





2.8 第 人 步 : 部 闭 


模型 的 部 署 是 将 模型 置 于 现实 生产 环境 中 的 过 程 。 这 取决 于 许多 因素 ， 如 开 妈 环境 、 选 择 的 算法 、 天 于 模型 开 友 时 所 做 数据 
的 假设 ,以 及 开 友 者 的 水 平 。 模 型 经 常 无 法 扩大 到 生产 环境 的 需求 。 如 果 你 事先 知道 可 能 的 生产 环境 ， 将 有 助 于 决定 哪些 问题 或 
技术 是 可 行 的 。 


模型 评分 


模型 评分 使 模型 变 得 可 以 实施 。 如 果 你 开 友 了 一 个 模型 ， 却 无 法 将 结果 应 用 于 新 数据 ， 那 么 你 将 无 法 在 持续 运行 的 基础 上 做 
任何 预测 。 新 的 模型 评分 通 弟 需 要 把 正在 开 友 的 模型 的 输出 友 送 到 实时 计 分 引擎 。 该 引擎 通 昔 是 用 Java 或 C++ 编写 的 。 根 据 不 
同 的 建 模 扩 术 ， 具 体 执行 方式 差别 很 大 。 有 时 ， 评 分 是 单独 执行 的 ， 因 此 可 以 优化 效率 。 


回归 类 型 模型 相对 比较 容易 进行 评分 ， 因 为 需要 使 用 的 所 有 数据 只 是 模型 的 系数 和 截 距 。 其 他 类 型 的 模型 需要 做 更 多 的 工 
作 。 例 如 ， 决 策 树 软 件 应 该 能 够 输出 一 组 决策 规则 ， 这 将 使 生产 语言 能 够 使 用 一 系列 if/then/else 规 则 对 其 进行 重新 编码 。 软 件 
包 经 弟 输 出 为 每 个 节操 确 定 的 决策 规则 。 


某 些 生产 包 可 以 接受 PMML 输 入 。PMML 是 一 种 常用 的 语言 ， 用 于 将 一 种 语言 的 模型 规范 翻译 成 通用 格式 。 


对 于 更 复杂 的 异型， 可 能 需要 在 单独 的 生产 机 器 上 生成 模型 的 生产 版 本 ， 并 使 用 和 开 妈 时 类 似 的 代码 来 运行 模型 。 


2.9 ”参考 众 料 


下 列 文 献 可 供 参 考 : 


e Determine the Root Cause: 5 Whys. Retrieved from 
https://www.isixsigma.com/tools-templates/cause-effect/determine—-root— 
cause—5—whys/ 


e。 Gettysbureg Address, (1863, November 19). Retrieved from Abraham Lincoln Online: 
http://www.abrahamlincolnonline.org/lincoln/speeches/gettysburg.html 


e Stevens, 9. (1946). On the Theory of Scales of Measurement. Science 


e。 Wikipedia. Bias-variance tradeoff. Retrieved from Wikipedia: 
https://en.wikipedia.org/wiki/Bias%E2%80%93variance tradeoff 


第 3 章 ” 输 入 和 探索 数据 


曾经 有 两 次 ， 有 人 问 我 : “请 问 ，Babbage 先 生 ， 如 果 你 在 机 器 中 输入 错误 的 图 片 ， 会 出 来 正确 的 答案 吗 ? …… 我 理解 


不 了 能 问 出 这 种 问题 的 人 是 怎么 想 的 。 
一 一 Chatles Babbage 


本 章 会 介绍 数据 输入 和 数据 探索 。 前 面 两 章 介 绍 了 如 何 处 理 已 经 在 R 包 中 的 一 些 数据 集 。 我 们 有 意 回避 了 读 取 外 部 数据 源 这 
个 步 又， 而 现在 我 们 要 面 对 这 个 步骤 了 。3.1 节 会 介绍 多 种 方法 来 把 你 自己 的 数据 读 取 到 R 中 。 


而 3.3 节 会 介绍 一 些 技术 ， 可 以 用 来 完成 上 一 章 中 涉及 的 第 二 个 步骤 (数据 理解 ) ， 以 及 第 三 个 步骤 (数据 准备 ) 。 
本 章 将 涉及 以 下 话题 : 

. 将 数据 导入 到 R 中 

. 产生 你 自己 的 数据 

. 数据 整理 和 数据 连接 

“ 数据 清理 技术 

. 数据 转换 

. 分 析 缺 失 值 和 异常 什 


` 各 种 数据 简化 技术 


3.1 ”数据 输入 


数据 本 身 只 不 过 是 一 系列 纯粹 的 数值 形式 的 东西 。 分 析 、 处 理 的 过 程 把 这 些 东 西 变 成 了 知识 ， 但 是 在 我 们 开始 理解 它 之 间 ， 
必须 先 获 取 它 。 如 今 ， 产 生 数 据 的 方式 有 很 多 ， 而 且 还 在 呈 指 数 式 增长 。 例 如 ， 从 通过 HTML 协 议 传 输 的 固定 长 度 的 格式 ， 到 目 
由 形式 的 无 结构 的 输入 ， 到 今天 基于 schema 的 读 取 技术 ， 如 今 有 太 多 不 同 的 数据 格式 ， 而 且 非 党 有 可 能 其 中 的 很 多 种 你 还 没有 


接触 过 ， 并 且 永 远 不 会 接触 。 读 取 数 据 、 理 解 变 量 和 数据 代表 的 意义 ， 可 能 会 是 很 困难 的 工作 。 把 数据 和 其 他 内 部 的 和 外 部 的 次 
源 整 合 ， 有 时 候 融 像 是 玩 一 个 拼图 游戏 。 有 时 候 ， 数 据 看 上 去 并 不 像 你 期 竺 的 那么 容易 使 用 。 


然而 ， 尽 管 有 那么 多 原始 的 输入 形式 ， 大 多 数 人 还 是 只 用 一 两 种 通用 的 形式 完成 他 们 的 工作 程序 ， 所 以 知道 怎么 使 用 这 一 两 
种 形式 是 很 有 用 处 的 。 


3.1.1 文本 文件 输入 


在 一 个 预测 分 析 工 程 中 ， 读 入 数据 最 方便 的 万 冯 束 是 通过 输入 文本 文件 。 文 本 文件 不 但 万 便 ， 而 且 对 小 型 和 中 型 的 工程 非常 
好 用 。 可 以 用 很 多 种 不 同 的 程序 来 以 人 类 可 以 阅读 的 形式 检查 文本 文件 。 然 而 ， 随 着 数据 越 来 越 多 ， 继 续 使 用 文本 文件 存储 数据 
就 会 变 得 难以 管理 ， 你 不 得 不 转 而 直接 从 数据 库 获 取 数 据 ， 不 沁 是 SQL 还 是 非 SQL 的 数据 库 ， 很 可 能 不 适合 像 Spark 或 者 
Hadoop 这 样 的 生态 系统 ， 而 你 却 要 用 这 些 生 态 系统 来 学 习 使 用 并 行 化 处 理 、 内 存 管 理 技术 。 


read.table 鲍 数 


读 取 文本 文件 的 基本 函数 是 read.table。 要 提供 给 该 函数 的 最 重要 的 信息 是 一 个 文件 名 、 一 个 分 隔 符 ， 还 有 该 文件 是 否 包 合 
一 个 行头 。 当 使 用 read.table 了 水 数 来 读 取 文件 时 ， 还 有 一 些 其 他 的 重要 事项 : 


. header: 如 果 输 入 数据 中 的 第 包含 有 列 关 信息 ， 则 设置 headetr=TRUE。 
col.name: 如 果 你 要 使 用 自己 的 列 名 字 ， 使 用 这 个 选项 来 用 一 个 向 量 指定 各 列 的 名 字 。 


` na.string: 该 选项 的 默认 值 是 NA; 然而 ， 输 入 数据 包含 多 个 代码 ， 它 们 都 可 以 表示 NA 的 意思 ， 甚 至 可 以 有 多 个 NA 值 。 有 
时 候 数 值 0、9， 或 其 他 字符 (例如 “.，) 也 可 以 用 来 表示 一 个 缺失 值 。 


“ colClasses: 如 果 你 想 要 指定 以 某 种 特定 数据 类 型 读 取 输入 数据 ， 例 如 string、int 或 者 factor， 就 使 用 这 个 选项 。 需 要 向 
colClasses 提 供 一 个 字符 类 型 的 向 量 。 这 个 选项 经 常 在 初始 读 取 数据 之 后 提供 ， 如 果 你 发 现 默 认 的 数据 类 型 不 是 你 想 要 的 ， 你 就 可 
以 强制 读 取 一 些 特殊 变量 ,使 用 指定 的 特定 数据 类 型 。 


stringsAsFactors: 如 果 这 个 选项 的 值 指定 为 TRUE ， 则 它 会 强迫 字符 输入 一 个 因子 (factor) 。 是 字符 分 类 变量 的 特殊 
表达 形式 ， 在 内 部 以 整数 的 形式 存在 。 把 一 个 字符 变量 设置 为 因子 ， 会 提高 把 它 作 为 分 类 变量 的 时 候 进行 分 析 的 效率 。 但 也 会 使 
严格 的 文本 处 理 ( 例 如 字符 串 的 操作 ) 变 得 稍微 困难 一 点 。 然 而 ， 这 就 是 通过 使 用 函数 来 解决 这 些 问 题 的 方法 ， 把 数据 类 型 强制 
转换 成 另外 一 种 数据 类 型 。 


一 般 来 说 ， 如 果 你 需要 做 很 多 字符 串 操作 ， 那 么 把 sttingsAsFactofts 设 置 为 FALSE 比 较 好 。 人 但是， 因子 对 于 分 析 包 更 有 用 ， 而 
且 分 析 包 多 数 时 候 会 要 求 把 变量 转变 成 因子 的 形式 。 有 很 多 方法 可 以 把 变量 从 字符 转换 为 因子 ， 或 者 反 向 转换 。 如 果 你 的 代码 要 
产品 化 ， 或 者 你 想 要 降低 成 本 ， 这 一 点 就 比较 重要 。 


sep: 这 个 是 分 隔 符 ， 它 的 值 使 得 函数 可 以 把 不 同 的 域 分 开 。 一 般 会 使 用 去 号 或 者 制 表 符 。 
除了 read.table 函 数 以 外 ， 还 有 一 些 从 read.table 派 生 的 其 他 的 特定 函数 ， 有 各 种 特定 的 用 途 : 


. fead.csv: fead.csv 适 用 于 用 如 号 来 分 隔 的 文件 ， 并 使 用 数值 作为 句号 。CSV 数 据 是 最 为 常见 的 文本 文件 格式 。 几 乎 所 有 的 
数据 应 用 都 有 能 力 读 或 者 写 这 种 格式 ， 所 以 熟练 地 使 用 这 种 格式 是 很 有 好 处 的 。 然 而 ，CSV 输 入 速度 可 能 会 很 慢 ， 通 常 对 多 种 机 
体 通 用 的 数据 会 表现 得 非常 好 。 可 能 你 会 想 要 使 用 一 些 输入 性 能 更 好 的 函数 (例如 ftead 或 者 Scan 函数 ) ,但 是 如 果 你 只 是 想 要 快 


速 地 上 手 ，tead.csv 对 于 读 取 CSV 文 件 是 一 个 很 好 的 开始 。 


-tead.csV2: 这 个 函数 和 read.csv 的 功能 相似 ,但 是 使 用 分 号 玉 作 为 分 隔 的 值 ， 并 使 用 过 号 作为 十 进 制 点 占 位 符 。 例 如 ， 这 种 
做 法 在 读 取 欧元 数据 时 候 非 党 有 用 ， 因 为 欧元 使 用 过 号 来 分 隔 整 个 十 进 制 数 字 ， 如 下 面 的 例子 所 示 : 


#Read in a single pencil costing $1.20 


cat ("Product,Cost",file="outfile.txt",sep="\n") 
cat ("Pencil,1.20",file="outfile.txt", 
sep="\n",append=TRUE) 

read.csv ("outfile.txt") 


#Read in a single pencil costing €1,2 

cat ("Product,Cost",file="outfile.txt",sep="\n") 
cat ("Pencil;1,20",file="outfile.txt", 
sep="\n",append=TRUE,) 

read.csv2 ("outfile.txt", sep=";") 


` fread.delim: 这 个 函数 使 用 制 表 符 作为 分 隔 符 ， 使 用 句号 作为 十 进 制 占 位 符 的 文件 。 
. read.delim2: 这 个 骂 数 和 read.delim 类 似 ， 不 过 使 用 过 号 作为 十 进 制 占 位 符 。 


read.fwf: 这 个 函数 处 理 数据 时 ， 按 照 预定 义 的 字 节 数 把 数据 分 成 列 。 从 茶 种 意义 上 来 说 ， 这 是 一 种 比较 十 考 和 低 效 率 的 
数据 存储 方式 ， 不 过 有 些 遗 留 数据 仍然 可 以 用 这 种 格式 ， 所 以 如 果 你 还 要 在 工作 中 接触 这 类 数据 ， 那么 掌握 这 个 函数 还 是 有 用 处 
的 。 


3.1.2 ”数据 库 表 格 


数据 库 表 格 存 储 在 企业 数据 仓库 (EDW) (例如 MySQL、SQL 服 务 器 、Oracle) 中 ， 也 可 能 存储 在 本 地 PC 中 。 只 要 提供 正 
确 的 授权 证 明 ， 这 种 数据 可 以 使 用 R 访 问 。 企 业 数 据 包 括 一 些 你 可 能 接触 到 的 最 好 的 数据 。 这 种 仓储 方式 通 单 家 看 作 官 方 数据 
源 ， 在 公司 内 通用 。 另 外 ， 在 能 力 强大 的 企业 数据 仓库 系统 中 ， 数 据 都 是 经 过 审理 的 ， 所 以 如 果 你 要 检验 数据 质量 ， 会 友 现 它 可 
以 减轻 工作 量 。 但 是 ， 从 数据 仓库 中 提取 数据 也 可 能 会 很 复杂 ， 经 党 需要 一 个 好 用 的 数据 字典 和 元 数据 来 配套 使 用 。 


数据 仓库 表格 通常 都 做 过 速度 方面 的 优化 。 然 而 ， 还 是 需要 理解 仓库 的 逻辑 和 物理 数据 结构 ， 以 及 列 索 引 结 构 。 了 解 这 些 ， 
可 以 提高 你 的 查询 效率 。 


在 EDW 中 ， 数 据 经 常用 标题 行 的 形式 组 织 起 来 ， 针 对 不 同 的 目的 分 离 出 不 同 的 特殊 表格 。 有 时候 这 会 造成 元 余 ,但 是 其 优 
扣 是 ， 你 需要 的 所 有 数据 可 能 刚好 在 少数 几 个 表格 中 。 


从 数据 库 表 格 中 读 取 数据 ， 在 某 种 程度 上 可 以 规避 R 的 内 存 限 制 ， 因 为 一 些 处 理 是 在 你 的 本 地 PC 之 外 完成 的 。 在 一 些 例子 
中 ， 可 以 使 用 并 行 处 理 ， 这 样 你 束 可 以 访问 非常 庞大 的 数据 集 。 


通常 访问 相关 数据 库 中 数据 的 方法 是 通过 SQL、ODBC 或 者 JDBC 连 接 。 也 有 些 系统 会 使 用 直接 的 访问 连接 。 有 些 特定 的 包 
可 以 用 来 连接 数据 库 ， 列 举 如 下 : 


. RODBC 包 ， 提 供 访 问 SQL 服 务 器 的 接口 ; 


-RMYSQL 包 ， 用 来 连接 到 MySQL 数据库; 
 ROrtracle、RJDBC 和 RODBC 包 都 可 以 用 来 连接 Oftacle 数 据 库 。 


企业 数据 库 的 通用 连接 器 是 ODBC 连 接 器 。 由 于 它 是 通用 的 ， 且 是 单线 程 的 ， 因 此 速度 比较 慢 。RJDBC 通 过 JDBC 接 口 提供 
访问 。JDBC 比 ODBC 速 度 快 ， 但 是 需要 更 多 的 修改 。 由 于 连接 到 一 个 数据 库 比 起 简单 地 读 一 个 文本 文件 还 是 要 复杂 一 点 ， 你 需 
要 多 化 点 时 间 ， 需 要 做 登录 账 记 、 输 入 密码 和 优化 得 询 这 举 工 作 。 不 过 一 旦 你 葡 悉 了 环境 ， 融 值得 多 化 一 些 时 间 来 优化 访问 ， 这 
样 残 不 会 收 到 数据 库 管 理 员 (DBA) 的 电话 一 一 告诉 你 “您 的 查询 花费 的 时 间 太 长 ”。 


3.1.3 ”电子 表格 文件 


R 提 供 直 接 访问 Excel 表 的 接口 ， 这 些 接口 在 XLConnect 或 者 xlsx 包 里 面 。Excel 在 很 多 企业 中 广泛 地 使 用 ， 存 储 很 多 非常 有 
用 的 数据 和 元 数据 。 所 以 ， 学 会 使 用 访问 电子 表格 的 工具 的 相关 知识 ， 一 定 会 物 有 所 值 。 学 习 分 析 电 子 表格 中 的 数据 也 是 非常 有 
用 的 ， 因 为 这 样 你 可 以 领悟 到 企 最 初创 建 数据 的 时 候 的 思路 ， 这 也 是 很 有 价值 的 思想 。 


然而 ， 因 为 Excel 是 具有 知识 产权 的 产品 ， 而 且 在 市 面 上 有 很 多 版 本 ， 所 以 在 使 用 这 些 包 时 还 是 会 遇 到 复杂 的 问题 。 引 入 
Exce| 数 据 最 方便 的 途径 是 使 用 Excel| 程 序 本 身 ， 然 后 使 用 Excel 命 令 ， 把 数据 另存 为 用 特定 符号 分 隔 的 文件 ， 然 后 再 用 R 的 
read.table 或 者 read.csv 包 读 取 这 些 文件 中 的 数据 。 如 果 你 自己 不 能 做 这 些 操作 ， 也 可 以 要 求 电 子 表格 的 管理 人 员 帮 助 你 生成 
CSV 文 件 。 


3.1.4 XML 和 JSON 数 据 


XML 数 据 在 金融 行业 和 保险 行业 中 用 来 做 数据 交换 ， 所 以 如 果 你 在 这 些 行业 工作 ， 很 可 能 你 之 前 已 经 接触 过 这 种 格式 的 数 
据 。XML 中 没有 预先 定义 的 schema， 但 是 这 也 意味 着 ， 当 读 取 数 据 以 后 ， 还 要 做 大 量 的 数据 解析 工作 ， 才 能 把 数据 本 身 从 这 个 
格式 中 提取 出 来 。XML () 包 是 用 来 把 XML 数 据 读 取 到 R 中 的 。 


JSON 是 另外 一 种 标准 ， 最 初 它 在 Web 技 术 中 用 于 在 不 同 的 应 用 系统 之 间 传 输 键 值 对 。jsonlite 包 可 以 用 来 解析 JSON 文 件 。 


你 是 否 还 感觉 这 么 多 的 文件 格式 令 人 眼花 练 乱 ? 可 以 试 试用 Rio 包 来 读 取 输入 文件 。Rio 是 一 种 特殊 的 封装 包 ， 可 以 自动 识别 


你 想 要 读 取 的 文件 是 什么 格式 ， 然 后 调用 对 应 的 包 来 完成 数据 读 取 。 


3.1.5 ”生成 你 目 己 的 数据 


在 测试 预测 模型 的 时 候 ， 如 果 你 不 确定 应 该 使 用 哪个 数据 源 ， 也 没关系 。 可 以 用 内 置 辫 数 sample () 来 生成 你 自己 的 数 
据 ， 还 可 以 生成 基于 不 同 分 布 的 随机 观察 ， 例 如 runif (均匀 分 布 ) 、rnorm ( 正 态 分 布 ) 、mvrnorm (多 元 正人 态 分 布 ) ， 或 者 
rpois ( 泪 松 计数 ) 。 我 们 还 可 以 使 用 一 个 叫 作 wakefield 的 特殊 包 ， 来 生成 典型 的 随机 数值 ， 很 多 数据 源 是 这 种 随机 数值 ， 例 
如 ， 性 别 、 教 育 程度 、 客 户 满意 度 打分 ， 无 有 顷 考虑 它们 是 服从 什么 分 布 的 。 


3.1.6 处理 大 型 文件 的 近 巧 


有 些 输入 文件 可 能 非常 大 ， 读 取 的 时 候 效 率 很 低 。 有 些 拉 巧 可 以 加 快 读 取 的 过 程 : 


` 使 用 外 部 的 UNIX 工 具 把 文件 分 割 成 多 个 部 分 ， 然 后 分 别 读 取 。 通 和 常 ， 文 件 中 都 会 有 些 区 域 ， 可 以 利用 它们 来 分 割 文件 。 


通常 可 以 使 用 数据 域 来 分 割 。 
-考虑 使 用 外 部 工具 ， 把 大 的 字符 串 替 换 成 数值 或 者 较 短 的 字符 串 。 这 样 可 以 节省 宝 呐 的 内 存 空 间 。 


. 读 取 文 件 时 使 用 参数 来 控制 读 取 的 数据 量 。 你 可 能 想 要 读 取 文 件 的 第 1 000 000 行 之 后 的 数据 再 进行 处 理 ， 你 并 不 一 定 总 是 


需要 从 最 开始 处 读 取 文 件 。 


` 并 不 是 所 有 的 列 都 需要 读 取 。 一 旦 你 确定 了 哪些 列 是 真正 有 用 的 ， 只 读 取 这 些 列 就 可 以 了 ; 这 样 可 以 加 快 处 理 过 程 。 例 


如 ， 如 果 你 使 用 的 是 read.table， 可 以 在 colClasses 选 项 中 指定 一 些 NUILL 值 ， 表示 这 些 列 可 以 急 略 。 


. 使 用 scan、fread 和 teadlines 函 数 ， 通 过 输入 参数 可 以 在 更 大 程度 上 控制 读 取 ， 从 而 加 快 数据 的 输入 。 


3.1.7 ”数据 整理 


为 分 析 准 备 数 据 的 一 个 重要 步骤 ， 是 把 完全 不 同 的 信息 按照 一 定 的 顺序 组 织 到 一 起 ， 生 成 最 终 的 分 析 数 据 集 ， 才 能 直接 传 给 
算法 。 这 个 过 程 有 很 多 不 同 的 名 称 ， 例 如 data munging、data wrangling、ETL 或 者 data prep。 我 们 已 经 介绍 过 几 种 从 单一 
来 源 读 取 数 据 的 方法 。 如 果 你 需要 的 所 有 数据 都 可 以 从 一 个 数据 源 读 取 到 ， 那 真是 大 幸运 了 。 实 际 中 ， 如 果 你 能 够 使 用 已 经 统一 
合并 过 的 数据 ， 那 就 尽量 使 用 ， 因 为 已 经 有 人 把 数据 整理 过 了 ， 你 不 用 费心 去 想 怎么 将 它们 组 织 到 一 起 。 但 是 ， 大 多 数 时 候 你 还 
是 需要 把 至 少 两 个 数据 源 的 数据 关联 起 来 ， 以 某 种 通用 的 数据 元 素 的 形式 将 它们 合并 。 


3.2 ”连接 数据 


如 果 你 需要 把 不 同 的 数据 源 联合 起 来 ，SQL 是 一 种 可 以 连接 数据 的 方法 。 如 前 文 所 述 ，SQL 语 法 在 很 多 种 不 同 环境 下 是 通用 
的 ， 所 以 如 果 你 掌握 了 R 里 面 的 SQL 语 法 ， 束 已 经 开始 理解 如 何在 其 他 的 环境 中 处 理 数 据 了 。 但 是 不 要 把 自己 局 限 在 SQL 中 。 也 
有 一 些 其 他 的 连接 数据 的 途径 ， 例 如 使 用 合并 语句 。Merge 是 一 个 native 阔 数 ， 可 以 达到 合并 的 目的 。 还 有 一 些 其 他 的 包 对 整合 
数据 也 很 好 用 。 我 还 喜欢 使 用 dplyr 包 ， 来 完成 一 些 和 SQL 一 样 的 任务 。 


sqldf 包 是 一 个 标准 的 R 包 ， 使 用 标准 的 SQL 语 法 来 合并 或 者 连接 两 个 表格 。 对 于 有 相关 关系 的 数据 ， 它 使 用 的 方法 是 把 其 中 
一 个 表格 的 一 个 变量 (原始 键 值 ) 和 另外 一 个 表格 的 一 个 相似 的 变量 关联 起 来 。 请 注意 ， 此 处 使 用 术语 “表格 ”来 表达 一 个 有 相 
天 关系 的 数据 库 环境 的 上 下 文 。 在 R 环 境 中 ， 一 个 SQL 表 格 等 价 于 一 个 R 数 据 帧 。 一 个 R 表 格 则 是 一 个 特定 的 R 对 象 ， 表 示 一 个 交 
义 表格 或 者 类 似 销 数 闫 生 的 表格 。 


3.2.1 使 用 sqldf 少 数 


下 面 这 个 示例 使 用 sqldf 和 RSQLite 包 来 演示 一 些 SQL 连 接 方法 ， 还 使 用 它 来 演示 如 何 读 取 一 个 CSV 文 件 并 使 用 过 滤器 。 这 个 
示例 还 使 用 wakefield 包 从 一 个 购买 交易 文件 生成 一 个 假想 的 成 员 文 件 。 


内 务 管理 和 加 载 必需 的 包 

首先 ， 清 理工 作 空间 (记得 先 保存 所 有 你 随后 需要 用 到 的 R 对 象 ): 
rm(list = ls()) 

然后 安装 需要 的 包 : 


install.packages ("dplyr") 
lnstall.packages ("wakefield") 
install.packages ("sqldf™") 
install.packages ("RSQLite") 


在 本 书 中 有 个 约定 ， 融 是 先 使 用 install.packages ("packagename") 指令 来 安 冯 所 需 的 所 有 包 ， 然 后 使 用 指令 


library ("packagename") 把 它们 加 载 进 内 分 。 一 旦 这 些 包 安 半 完毕 ， 可 以 把 它们 注释 挥 ， 也 可 以 把 上 面 的 代码 蔡 换 成 下 面 这 
样 有 条 件 的 安 妆 代码 : 


try(require(dplyr) || install.packages ("dplyr")) 

但 是 这 个 语法 可 能 不 是 对 所 有 的 R 安 装 和 GUI 都 奏效 ， 所 以 我 们 用 更 简单 的 方法 ， 显 式 地 调用 install.package () 。 
library (dplyr) 

library (wakefield) 

library (sgqldf) 

library (RSQL1ite) 


3.2.2 ”生成 数据 


接 下 来 ， 生 成 一 个 具有 1000 个 成 员 的 成 员 文件 ， 再 把 它 赋 给 成 员 数 据 帧 。wakefield 包 使 用 指定 的 函数 ， 为 每 个 指定 的 变 
生成 典型 的 数值 


: gendet 函 数 会 生成 M 或 者 上 ， 概率 都 是 50%， 这 样 每 一 行 都 代表 一 个 女性 或 者 男性 。 
. set.seed (1010) 指令 保证 无 论 你 重复 运行 这 段 代 码 多 少 次 ， 结 果 都 是 一 样 的 。 
` f+_sample_treplace () 也 数 生成 一 个 唯一 的 成 员 ID， 取 值 范围 是 1 一 1000。 


. income、children、employment、level、grad、year、state 和 zip_code 这 些 变 量 的 值 ， 都 可 以 随机 生成 ， 无 须 提供 任何 特定 的 


打开 一 个 新 的 脚本 窗口 ， 运 行 以 下 代码 : 


#GENERATE MEMBER 
set.seed(1010) 
member <—- r data framel 
n=1000, 
r_sample_replace(x = 1:1000,replace=FALSE,name="memberid"), 
age, 
gender (x = c("M","F"), prob = c(., .5),name="Gender"), 
QoB, 
lncome, 
children, 
employment, 
level, 
grade, 
year, 
state, 
Zlp_code 


用 类 似 的 方法 生成 一 个 购买 文件 ， 并 把 它 赋 给 购买 数据 帧 。 购 买 的 总 数目 将 服从 正 态 分 布 ， 其 平均 购买 数目 是 20 000， 标 
准 差 是 1000。Product 这 个 变量 是 一 个 随机 的 产品 名 称 ， 由 字母 A ~ Z 构 成 。 


下 面 的 代码 片段 用 来 生成 购买 数据 : 


#GENERATE PURCHASES 
set.seed(1010) 


purchases <- r_data frame ( 
n=1000, 
r_sample_replace(x = 1:1000,replace=TRUE,name="memberid2"), 
purch=rpois (lambda=1), 
normal (mean = 20000, sd = 1000, min = NULL, max = NULL, name = 
"TotalAmount"), 
upper(x = LETTERS, k=3, prob = NULL, name = "Product") 
) 


purchases$purch <- purchases$purch + 1 
str(purchases,) 


生成 购买 数据 帧 之 后 ， 要 把 它 写 入 一 个 外 部 的 CSV 文 件 中 。 这 么 做 的 目的 是 演示 如 何 使 用 read.csv.sql 来 过 滤 一 个 外 部 文件 
中 的 各 行 : 


#WRITE PURCHASES TO FILE 


write.csv(purchases, "purchases.csv", quote = FALSE, row.names = FALSE) 


现在 要 把 purchases.csv 文 件 重 新 读 取 到 R 中 。 但 是 并 不 读 取 整个 文件 ， 要 读 取 的 只 是 那些 TotalAmount>20 000 的 记录 : 


#read it back in 


purchases_filtered <- read.csv.sql ("purchases.csv",sql = "select * from 
file where TotalAmount > 20000 ") 


你 可 能 会 问 ， 为 什么 我 不 读 取 整个 文件 然后 再 过 滤 呢 。 答 案 是 这 样 做 效率 更 局 。 假 设 在 现实 中 ， 这 个 购买 文件 的 大 小 远 远 超 
过 现在 所 有 的 1000 条 记录 ， 并 且 还 包含 了 很 多 比较 小 的 购买 记录 。 我 们 并 不 想 化 很 多 时 间 读 取 那 些小 的 购买 记录 并 处 理 它 们 ， 


因为 我 们 感 兴趣 的 只 是 找 出 那些 数值 很 高 的 成 员 。 所 以 ， 可 以 在 读 取 的 同时 殊 把 那些 数据 过 滤 一 下 ， 只 读 取 那 些 购买 数目 高 于 
20 000 的 成 员 。 





3.2.3 ” 检 示 元 数据 


好 的 经 验 是 : 读 取 了 任何 一 个 文件 乙 后 ， 辟 是 检验 它 的 行 数 ， 并 在 创建 了 数据 帧 乙 后 查看 元 数据 。 可 以 用 阔 数 str () 来 轻 
松 地 完成 这 个 任务 。str () 邓 数 是 个 极其 有 用 处 的 函数 ， 它 打包 了 第 2 章 中 提 到 过 的 很 多 元 数据 信息 。 每 次 你 读 取 、 合 并 、 连 接 
或 者 创建 了 一 个 新 文件 之 后 ， 都 运行 一 下 str () 函数 ， 肯 定 是 有 好 处 的 。 


str (member) 
str(purchases,) 
str(purchases_filtered) 


> Str(member) 
Classes ‘tbl_df’, ‘tbl’ and “data.frame ”: 1000 obs. of 12 variables: 
memberid : int 553 192 185 676 909 818 659 971 384 792 ... 
: int 30 23 29 20 31 23 26 29 28 28 ... 
: Factor w/ 2 levels "M","F": 22122 
: Date, format: “2002-04-30” "2001-12-16 
: num 52826 53330 50949 31842 47418 ... 
children : int 21i151i31i1i703... 
Employment: Factor w/ 5 levels “Full Time”,"Part Time”,..: 4511111114... 
Level : int 1444232313 ... 
Grade : num 88.6 78.3 88.7 82.8 83.2 85.8 89.2 91.6 84.4 94.2 ... 
Year : int 2009 1998 2010 2015 2013 1997 2012 1998 2015 2012 ... 
state : Factor w/ 50 levels "Alabama”,"Alaska”,..: 43 5 43 38 43 17 6 4 35 36 ... 
Zip : Chr “82942” "37189” "89850” "49835”... 
> str(purchases) 
Classes ‘tbl_df’, ‘tbl’ and “data.frame : 1000 obs. of 4 variables: 
$ memberid2 : int 553 192 185 678 912 822 663 977 387 799 ... 
$ purch : num 2121212222... 
$ TotalAmount: num 19457 21222 19469 20331 19003 ... 
$ Product Ei CC“ CU NV 
> str(purchases_filtered) 
"data.frame”: 489 obs. of 4 variables: 
$ memberid2 : int 192 678 822 663 387 914 830 974 549 902 ... 
$ purch : int i1112221131... 
$ TotalAmount: num 21222 20331 21208 21151 21869 ... 
$ Product se CV UT WW ,s 
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如 果 你 切换 到 这 个 控制 台 ， 会 看 到 成 员 和 购买 都 有 1000 行 ， 而 purchases filtered 数 据 帧 有 489 行 。 
str (purchases filtered) 函数 里 面 的 TotalAmount 行 显示 : 所 有 的 购买 都 大 于 20 000。 


记得 要 查看 一 下 缺失 值 (NA) 的 个 数 ， 以 及 为 所 有 因子 指定 的 水 平 。 在 这 个 数据 中 没有 缺失 值 。 查 找 一 下 所 有 的 字符 变量 
应 该 被 看 作 因 子 的 情况 ， 以 及 相反 的 情况 。 例 如 在 列表 中 ， 变 量 Product 显 示 是 一 个 字符 类 型 的 变量 (chr) ， 则 它 很 可 能 被 看 
作 一 个 因子 。 随 后 还 可 以 修改 它 的 类 型 。 


如 果 你 只 是 想 看 一 下 创建 了 多 少 行 ， 可 以 用 nrow 消 数 来 代 蔡 str () 函数 : 


Nrow (member) #1000 members 
nrow (purchases_filtered) #489 


3.2.4 使 用 内 部 连接 和 外 部 迁 接 来 合并 数据 


现在 要 合并 这 个 成 员 文件 中 所 有 的 购买 记录 。 人 在 3QL 里 面 ， 有 两 种 合并 方法 可 以 用 来 联系 两 个 数据 帧 。 内 部 连接 可 以 基于 两 
个 记录 的 一 个 或 者 多 个 共有 的 键 值 把 它们 统一 起 来 。 而 外 部 连接 也 会 根据 键 值 来 合并 两 个 表格 ， 但 是 也 会 把 所 有 不 匹配 的 行 都 包 
合 进 去 。 可 以 通过 观察 在 匹配 的 键 值 里 面 有 没有 NA 来 判断 它 是 不 是 一 个 外 部 连接 。 内 部 连接 通常 效率 比较 高 ， 但 是 只 有 当 你 希 
望 匹 配 的 键 值 同 时 存在 于 两 个 连接 文件 里 的 时 候 才 使 用 它 。 


join2 数 据 帧 是 一 个 内 部 连接 ， 只 包含 那些 有 购买 记录 的 成 员 。sqldf () 函数 可 以 逐个 成 员 来 匹配 所 有 的 观察 : 


]oln2 <- sqldf ("select * from ‘member' inner Join ‘purchases_filtered' on 
member.memberid=purchases_filtered.memberid2") 


在 完成 连接 之 后 ， 马 上 对 join2 数 据 帧 调用 str () 函数 : 
str(Jjoin2) 


str () 函数 会 显示 一 共有 489 个 观察 ， 表 示 并 非 所 有 的 成 员 都 有 购买 记录 。 


> Str(join2) 
data.frame : 489 obs. of 16 variables : 
: int 192 676 909 971 384 963 541 9 79 272 ... 
: int 23 20 31 29 28 20 33 26 26 24 ... 
: Factor w/ 2 levels "M","F": 2222211211... 
: Date, format: “2001-12-16” “2002-09-08” “2001-07-24” "2002-03-26”... 
: num 53330 31842 47418 30076 10282 ... 
chi ldren : int i1137040403... 
Employment : Factor w/ 5 levels “Full Time”,"Part Time”,..: 5111131511... 
Level : int 4423143134 ... 
Grade : num 78.3 82.8 83.2 91.6 84.4 83.9 82.7 86.9 85.9 85.1 ... 
Year : int 1998 2015 2013 1998 2015 1996 2008 1996 1999 1999 ... 
state : Factor w/ 50 levels "Alabama”," Alaska” ,..: 5 38 43 4 35 44 38 5 43 9 ... 
Zip : Chr “37189” "49835” "45727” "68914”... 
memberid2 : int 192 676 909 971 384 963 541 9 79 272 ... 
purch a 
TotalAmount: num 21222 20239 20118 20439 20874 ... 
Product er Kv Nv WW 
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有 时 候 ， 你 并 不 是 想 要 两 个 文件 里 面 匹 配 的 数据 ， 那 么 使 用 外 部 连接 可 能 丈 好 一 些 。join3 数 据 帧 会 合并 两 个 文件 的 购买 记 
录 ， 同 时 也 会 把 所 有 不 合 购买 记录 的 成 员 也 都 包 合 进 来 。 这 是 通过 使 用 外 部 连接 从 句 来 实现 的 。 连 接 了 数据 帧 之 后 ， 调 用 str 和 和 
hrow 孙 数 来 检验 行 数 。 数 据 帧 里 面 应 该 有 1105 行 。 这 比 成 员 的 数量 要 多 。 这 是 因为 实际 上 有 些 成 员 合 有 多 个 购买 记录 : 

Joln3 <- sqldf ("select * from member left outer JjJoin purchases_filtered on 

member.memberid=purchases_filtered.memberid2 order by member.memberid") 


Str(J]oLrn3,) 
nrow(Join3) 


#View the output from JjJoin 3 for columns 1, and 8-16 corresponding # to 七 he 
order #given in str() 


View(Join3[,c(1,8:16)]) 


View () 国 数 是 一 个 很 方便 的 方法 ， 可 以 细致 地 检查 结果 ， 并 尝试 消除 可 能 遇 到 的 异 音 数据。 在 数据 帧 join3 中 选择 了 一 些 
列 之 后 调用 View 命 令 ， 我 们 可 以 看 到 memberid 4 有 多 个 购买 记录 。 也 可 以 快速 查看 哪些 成 员 没有 购买 记录 (memberid 7 和 
memberid 8) 。 当 一 个 成 员 里 面 没 有 购买 记录 时 ， 仍 然 存在 一 个 变量 表示 购买 信息 ， 只 是 这 个 变量 里 面 的 各 个 域 都 赋值 为 
NA。 
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3.2.5 ”识别 有 多 个 购买 记录 的 成 员 


尝试 使 用 一 个 新 的 脚本 来 进行 查询 ， 找 出 哪些 成 员 有 多 个 购买 记录 。 结 果 应 该 是 有 89 个 。 在 SQL 查 询 语 句 
count (*) >1 表 示 查 询 多 个 购买 记录 : 


二 


dups <- sqldf ("select member.memberid,count (*) from 
member left outer JjJoin 
purchases_filtered on 
member.memberid=purchases_filtered.memberid2 
group by member.memberid having Count (*) > 1") 


3.2.6 ”清除 多余 记录 


在 很 多 情况 下 ， 你 可 能 只 想 要 连接 的 数据 中 的 一 个 记录 保留 下 来 。 假 如 每 个 memberid 我 们 只 想 保留 一 个 记录 ， 而 且 是 每 个 
成 员 中 TotalPuechase 什 最 高 的 记录 。 为 了 清除 见 余 的 记录 ， 可 以 先 利 用 memberid 和 TotalPurchase 数 值 对 数据 帧 进行 升序 排 
序 ， 然 后 使 用 rev 和 duplicated 函 数 只 保留 每 个 nemberid 中 最 后 一 个 购买 记录 。 这 样 ， 对 于 最 初 的 1000 个 成 员 ， 每 个 成 员 最 后 
只 剩 下 一 条 记录 : 


Join3 <- join3[order (join3Smemberid，]join3STotalAmount ) ，] 
View(]Join3) 

dedup <- join3[!'rev(duplicated(rev (join3smemberid))),] 
nrow(Jolin3) 

nrow (dedup) 


> nrow(]Join3) 
[1] 1105 
> nrow (dedup) 
[1] i1000 


3.3 ” 探 系 医院 数据 集 


探索 性 的 数据 分 析 是 在 数据 建 模 之 前 的 一 个 初步 处 理 ， 在 这 个 过 程 中 检查 数据 所 有 的 属性 ， 以 便 得 到 一 些 关 于 数据 分 布 、 相 
天 性 、 缺 失 值 、 异 单 值 以 及 任何 可 能 影响 将 要 进行 分 析 的 因子 的 信息 。 这 是 一 个 非 单 重要 的 步 又， 如 果 用 心 做 好 这 一 步 ， 企 随后 
的 工作 中 你 可 能 会 节省 大 量 的 时 间 。 


在 下 面 的 各 个 示例 中 ， 我 们 会 读 取 NYC 医 院 的 出 院 数 据 集 (医院 住院 病人 出 院 (SPARCS De-ldentified) 
2012，n.d.) 。 这 个 示例 使 用 read.csv 函 数 来 输入 有 分 隔 的 文件 ， 接 着 使 用 View 卫 数 以 图 形 方式 显示 输出 结果 。 然 后 ， 调 用 str 
为 数 来 显示 刚刚 创建 的 df 数据 帧 的 内 容 。 最 后 ， 用 summary () 函数 来 显示 所 有 变量 之 间 所 有 的 相 天 统计。 这 些 都 是 当 你 第 一 
次 查看 数据 的 时 候 典 型 的 第 一 步 处 理 : 
df <-read.csv("C:/PracticalPredictiveAnalytics/Data/NYC Hospital Discharged 


2012 Medicare Severe.csv",na.strings= c(" ", "")) 
St WT] 


3.3.1 Str (df) 晃 数 的 输出 


在 创建 了 一 个 新 的 数据 对 象 之 后 ， 一 件 很 重要 的 事情 就 是 运行 一 下 str () 函数 。 如 果 你 得 看 日 志 中 str (df) 函数 的 输出 ， 
会 友 现 刚 运 行 的 默认 read.csv 孙 数 把 数据 中 的 每 个 变量 都 定义 为 数值 或 者 因子 。 在 这 个 时 间 点 ， 可 以 不 用 改变 这 个 情况 ， 不 过 我 
们 最 后 需要 改变 一 下 这 些 变 量 的 数据 类 型 ， 因 为 Length.of.Stay 并 不 是 一 个 因子 ， 它 是 一 个 整数 。 另 外 还 有 一 个 选择 ， 可 以 使 用 
另 一 个 read.csv 遂 数 并 在 colClasses 同 量 中 精确 地 指定 我 们 想 要 的 数据 类 型 。 通 常 我 喜欢 先 查 看 较 小 的 抽样 数据 集 ， 然 后 表决 定 
数据 类 型 都 有 哪些 ， 随 后 再 次 读 取 数 据 。 


使 用 read.csv 语 句 还 有 一 件 需要 注意 的 事项 ， 如 果 指 定 了 na.strings 选 项 ， 缺 失 值 会 用 空格 值 表 示 。 


\ 


str () 函数 还 有 一 个 重要 作用 ， 残 是 提供 一 些 线索 来 判断 哪些 变量 可 以 从 分 析 中 排除 把 ， 甚 到 在 运行 频率 分 布 之 前 残 能 做 


例如 ， 变 量 APR.Severity.of.lliness.Description 和 Payment.Typology.1 都 只 有 一 个 水 平 ， 我 们 在 分 析 中 不 采用 这 两 个 变 
量 ， 因 为 它们 的 数值 一 直 不 会 有 变化 。 


data.frame': 40052 obs. of 24 variables: 
$ Hospital.County : Factor W/ 5 levels "Bronx","Kings",..: 11111111i111  ... 
$ Facility.Name : Factor Ww/ 54 levels "Bellevue Hospital Center" 3 13 13 13 13 13 13 13 13 13 13 。。 
$ Age.Group : Factor W/ 5 levels "0 to 17","18 to 29",..: 
$ Zip.Code...3.digits : Factor W/ 40 levels "100","101","103",..: 4 
$ Gender : Factor W/ 2 levels "F","M": 1 2222222 SS 
$ Race : Factor W/ 4 levels "Black/African RMmerican"，.-.: 4422212222... 
$ Ethnicity : Factor W/ 3 levels "Not Span/Hispanic",..: 1 122212121  ... 
$ Length.of.Stay : Factor W/ 120 levels "1","10","100",..: 24 55 25 25 50 42 59 51 35 S51 ... 
$ Admit.Day.of.Week s Factor WA 7 Jevels “ERI WN", SA oo 2331456422 3 。s 
$ Patient.Disposition : Factor W/ 17 levels "Another Type Not Li3sted",，..: 4 16 17 17 17 12 17874 。。。 
$ Discharge.Day.of .WeekX : Factor W/ 7 levels "FRI","MON","SAT",..: 3 7 6 区 号 
$ CCS.Diagnosis.Description : Factor W/ 217 levels "ABDOMINAL HERNIA",..: 3 37 30 190 136 190 95 113 21 190 ... 
$ CCS.Procedure.Description : Factor WwW/ 192 levels "ABDOMINAL PARACENTESIS",..: 93 93 3 36 66 76 36 39 111 182 ... 
$ APR.DRG.Description : Factor W/ 260 levels "ABDOMINAL PAIN",..: 49 82 246 230 172 89 246 89 57 247 ... 
$ APR.MDC.Description : Factor W/ 24 levels "Alcohol/Drug Use and Alcohol/Drug Induced Organic Mental Disorders",..: 1242185 17 22 17 8 18 ... 
$ APR.Severity.of.Illness.Description: Factor w/ 1 level "Extreme": 1 1111111i111... 
$ APR.Risk.of.Mortality : Factor W/ 4 levels "Extreme","Maijor",..: 1 1 i 
$ APR.Medical.Surgical .Description : Factor W/ 2 levels "Medical","Surgical": 1 1 111 
$ Payment.TypoOlogy.1 : Factor W/ 1 level "Medicare": 1 111111111 ... 
$ Payment.Typology.2 : Factor W/ 9 levels "Blue Cross/Blue Shield",..: 5 NMR555555 4 4 ... 
9 
2 


r, 
4 4 
4 4 
22 


1 S11 ce. 

2 " 

$ Payment.TyPOl0gY.3 : Factor w/ levels "Blue Cross/Blue Shield",..: NA NA 444444NANA... 
$ Emergency.Department.Indicator : Factor w/ Jevels "BH,"Y2222222222 ss 





3.3.2 View 因数 的 输出 


除了 使 用 head 命 令 和 tail 命 令 ， 还 可 以 使 用 View 命 令 来 快速 查看 数据 ， 这 个 万 法 很 有 帮助 。 上 下 左右 滚动 窗口 ， 并 检查 那 


些 有 代表 性 的 数据 的 类 型 ， 以 及 它们 是 否 填 充 进 去 了 。 通 过 查看 数据 ， 还 可 以 了 解 到 这 些 数 据 可 能 是 以 什么 样 的 万 式 .来 排序 或 者 


分 组 的 。 


富 中 | 了 了 Filter 


TO 
Tmospirat.county [Faciiry om [Ageoroup * Zipcode3doiis [cender JRace [Emicny |iengthof say *|Adoiv Day.ofrWock Parion Dispos 
DO CE TT 2 lo CE EE CT TE wo ea 
了 sow oommecacener|sot60 |104 so 
lom hcommeacacener|soi60 | lm mer Spriopno 120+ sm Shed Nn 
sow commencacener|30t045 |100 | oeme Sporiopno 20+ | 网 se 


lom comvedcaCemer|7oorOder |104 |m omace |Sspmi/riopne |35 rm Sled Worn 
see Jeomveacacener|sowmeo lo moanencm Norspen/ispane |2s Tue eam 
DC I ET CE EE so | Home w/ Hor 


9 | Bronx Jacobi Medical Center | 50 to 69 104 M Other Race Spanish/Hispanic | 21 Home or Self 
« > 








3.3.3 ”colnames 了 区 | 数 


运行 colnames () 函数 可 以 很 方便 地 获取 每 个 变量 对 应 的 索引 值 。 在 R 函 数 中 ， 使 用 率 引 值 是 引用 变量 的 便捷 方式 。 


然而 ， 改 变 文 件 格式 可 能 会 改变 数据 顺序 ， 所 以 这 种 方法 仅仅 推荐 在 交互 状态 下 使 用 : 


d 
"Hospital.County™ "Facility. Name” “Age. Group™ "Zip.code. . .3.digits” 
"Gender ” “RaCce” “Ethnicity” "Length.of. Stay” 
"Admit. Day.of.Week” “Patient.Disposition” "Discharge.Day.of.Week” "CCSs.Diagnosis.Description” 
"CCSs.Procedure.Description” "APR. DRG. Description” "APR.MDC. Description” "APR. Severity.of.I11ness.Description” 


"APR. Risk.of.Mortality” "APR.Medical. surgical.Description” “Payment. Typology.1" "Payment. Typology.2" 
"Payment. Typology.3" "Emergency. Department. Indicator™ "Total.Charges”™ “Total.Costs” 





为 了 简化 示例 ， 要 在 分 析 中 去 挥 变量 12、13、16、19、20 和 和 21。 


3.3.4” summary 了 为数 


summary () 函数 是 一 个 取得 变量 分 布 快照 的 便捷 方法 。 对 数值 性 的 变量 ， 它 会 给 出 6 个 重要 的 分 布 统计 数据 (均值 、 最 小 


值 、 最 大 值 、 第 一 个 四 分 位 数 、 第 五 个 分 位 数 、 第 三 个 四 分 位 数 ) 。 该 消 数 能 快速 返回 很 多 信息 。 当 变量 个 数 很 多 
时 ，summary () 函数 的 输出 可 能 是 巨大 的 (而且 不 好 看 ! ) 。 


为 了 限制 输出 ， 在 运行 Summary () 遂 数 时 ， 要 使 用 之 前 获得 的 列 泰 引号 来 排除 列 12、13、16、19 和 21: 


summaryv (df Lr—e llZ L309 20y 2Z1) | rmMaxesums=7) 


或 者 ， 如 果 你 不 想 使 用 索引 号 ， 而 想 使 用 变量 名 字 ， 可 以 用 下 面 的 代码 得 到 跟 上 面 一 样 的 结果 ， 此 处 使 用 的 是 NOT 
sign (! ) 来 指定 向 量 中 不 包含 哪些 变量 : 


exclude vars <— names (df) Ss%ins% 
c('CCS.Diagnosis.Description','CCS.Procedure.Description','APR.Severity.of. 
Illness.Description', 'Payment .Typology.1', 'Payment .Typology.2', 'Payment .Typ 
Gloogy,.3") 


summary (df ['exclude vars],maxsum=7) 


查看 summary () 函数 的 输出 ， 并 观察 变量 的 分 布 。 找 一 找 那 些 看 上 去 可 能 表达 不 足 或 者 表达 过 多 的 变量 。Hospital 
Country 变 量 的 分 布 是 否 反映 了 纽约 市 5 个 行政 区 的 人 口 ? 年 龄 组 变量 向 老年 人 口 倾斜 ， 那 么 0 ~ 17 年 龄 组 的 5 个 案例 的 原因 是 什 
么 ? 


当 你 观察 汇总 统计 数据 时 可 以 获得 很 多 信息 ， 在 当下 应 该 考虑 的 是 以 下 几 个 方面 的 问题 : 


> summary(df[,-c(12,13,16,19,20,21)],maxsum=7) 
Hospital.County Facility. Name Age. Group Zip.code. . .3.digits Gender 
Bronx : 6667 Maimonides Medical Center : 2513 0 to 17 - 5 :12839 F:20865 
Kings :11952 Montefiore Medical Center - Henry & Lucy Moses Div : 2002 18 to 29 : 176 - M:19187 
Manhattan:11457 New York Presbyterian Hospital - New York weill Cornell center: 1899 30 to 49 : 1251 
Queens : 7258 Staten Island University Hosp-North : 1770 50 TO 69 : 9071 
Richmond : 2718 New York Presbyterian Hospital - Columbia Presbyterian Center : 1689 70 or Older:29549 - 
New York Hospital Medical Center of Queens : 1633 (other): 
(other) :28546 NA's ,17 
Race Ethnicity Ee of . Stay Admit.Day.of.week Patient.Disposition Discharge. Day. of .week 
Black/African American:11256 Not Span/Hispanic:32763 2399 FRI:5805 skilled Nursing Home :13991 FRI:8050 
Other Race - spanish/Hispanic : 6193 : 2255 MON:6440 Expired : 9556 MON:6196 
Unknown - Unknown : 1096 : 2206 SAT:4856 Home Ww/ Home Health Services : 6789 SAT:2733 
white - : 2118 SUN:4668 Home or Self Care : 4735 SUN:2050 
: 2085 THU:5987 Hospice - Medical Facility : 1262 THU: 6901 
: 2027 TUE:6215 Inpatient Rehabilitation Facility: 1192 TUE:7198 
(Other ) ;26962 WED:6081 (other) : 2527 WED: 6924 
APR. DRG. Description APR. MDC. DeScription 
SEPTICEMIA & DISSEMINATED INFECTIONS :10256 Infectious and Parasitic Diseases, Systemic or Unspecified Sites:12585 
HEART FAILURE : 1450 Diseases and Disorders of the Respiratory System : 6356 
PULMONARY EDEMA & RESPIRATORY FAILURE : 1365 Diseases and Disorders of the Circulatory System : 5702 
TRACHEOSTOMY W MV 96+ HOURS W/O EXTENSIVE PROCEDURE : 1274 Diseases and Disorders of the Digestive System : 3411 
OTHER PNEUMONIA 1131 Diseases and Disorders of the Nervous System : 2504 
INFECTIOUS & PARASITIC DISEASES INCLUDING HIV W 0.R. pROCEDURE: 1066 Diseases and Disorders of the Kidney and Urinary Tract : 2394 
(other) :23510 (other) : 7100 
APR. Risk.of.Mortality APR.Medical. surgical.Description Emergency. Department. Indicator Total.Ccharges Total.Costs 
Extreme :29274 Medical :32205 N: 4414 Min. - 999 Min. - 
Major :10060 surgical: 7847 Y:35638 lst Qu.: 36927 1st Qu. : 
Minor : 108 Median : 69117 Median : 
Moderate: 610 Mean : 109712 Mean - 
3rd Qu. : 130770 3rd Qu. : 
Max. :5166411 Max. :3719936 





将 输出 另存 为 HTML 文 件 


由 于 变量 很 多 的 时 候 summary 水 数 的 输出 并 不 好 看 ， 因 此 可 以 把 输出 格式 化 为 HTML 并 存储 到 文件 中 ， 这 样 你 束 可 以 用 浏 
览 器 来 查看 结果 了 。 我 们 要 介绍 一 种 通过 R2HTML 包 来 实现 这 一 点 的 方法 。 


在 下 面 这 段 代 码 中 ， 在 HTMLstart 和 HTMLstop 之 间 的 输出 都 会 存储 进 指 定 的 路 径 和 文件 中 : 


Install.packages ("”R2HIML ”) 

library (R2HIMEL ) 

HTIMLStart (outdir="C:/PracticalPredictiveAnalytics/Outputs",file="MedicareNY 
CInput",extension="html", HIMLframe=FALSE") 

Summarvidt ler li ld lo L920 naxSUwm 

HTMLSt op () 


写 下 HTMLStop () 命令 之 后 ， 从 log 中 可 以 看 出 输出 已 经 补 写 入 HTMLx 文 件 : 


HTML> HTMLStop() 
[1] “C:/PracticalPpredictiveAnalytics/Outputs/MedicareNYCInput.html”" 


> | 





3.3.5 ”在 浏 史 器 中 打开 文件 


下 一 步 ， 选 择 一 个 浏览 器 打开 那个 文件 。 你 可 以 看 到 汇总 数据 的 显示 如 下 ， 每 个 变量 占据 一 多 ， 对 应 之 前 summary 阔 数 产 
生 的 输出 。 你 可 能 得 使 用 上 下 、 左 右 滚动 条 来 查看 所 有 的 变量 : 


re TITDTFTTT ge.Gr Zip,Code...3.digits| Gender Qace en .Of. Stay [Admit.Day.of.Week|Patient.Disposition|Discharge,.Day.of.Week|lAPR,DRG.Description[APR.MDC .Description[APR., Risk., 


L 。 BlacW/ African ot Skaled Nursing 
Bronx : 6667 112 :12839 i FRI-5805 Home :13991 


Other R HEART FAILURE : 
:11311 1450 


6 
Presbytenan 
| ospital - Home w/ Home PULMONARY 
Ilsiand 


Kings :11952 3 . M-19187 


H 
- EDEMA & 
Manhatian:11457 - = RESPIRATOR 
Wea Cornell 67 Y 


FAILURE : 1365 
| Queens : 7258 


INFECTIOUS & 
PARASITIC 


DIS 
(Other): 5942 ehab 训 ation INCLUDING HIV W 
O.R. PROCEDURE: 

1066 


niversity : Digestive 
:1770 1 
H 
E | OTHER 
Richmond : 2718 ce 103 : 2819 PNEUMONIA : 1131 
2504 
| NA Medical 


中 NA .28546 (Other) :23510 (Other) : 7100 


nerated on: Wed May 10 09:20:16 2017 - R2HTML 





3.3.6 ”绘制 分 布 图 


在 急 级 的 步骤 中 ， 为 变量 绘制 一 个 矩阵 图 形 也 是 很 有 帮助 的 ， 你 可 以 一 眼 束 看 出 变量 的 形状 和 分 布 ， 还 能 指出 数据 中 有 哪些 
缝隙。 之 前 我 们 已 经 从 数据 帧 中 去 除了 一 些 不 会 再 使 用 的 列 ， 所 以 现在 数据 集 已 经 相当 干净 了 ， 变 量 按照 我 们 想 要 的 样子 组 织 起 
来 了 。 例 如 ，Admit.Day.of.Week 是 一 个 很 好 的 正 态 分 布 ， 但 是 我 们 可 以 看 到 在 周 中 有 一 个 天 于 出 耽 人 数 的 数据 是 null。 成 本 的 
分 布 是 倾斜 的 ， 其 极 值 的 数值 很 高 〈 但 友 生 次 数 很 少 ) : 


四 开关 一 站 天 王 思 和 人 OZ 


3.3.7 ”变量 的 可 视 化 纵 图 


有 时 候 你 可 能 想 要 给 所 有 的 变量 都 绘制 分 布 图 ， 而 且 布 局 在 一 个 起 阵 中 。 一 方面 有 很 多 包 可 以 用 来 目 动 地 完成 这 个 任务 ， 另 
一 方面 你 也 可 以 目 己 编写 代码 来 实现 ， 例 如 下 面 的 示例 代码 。 我 还 限制 了 直方 图 的 分 级 要 小 于 等 于 20。 我 可 能 以 后 想 要 看 一 下 
其 他 的 ， 而 且 可 能 想 要 精简 其 中 一 些 分 类 ， 不 过 作为 一 个 开端 ， 这 样 已 经 显示 了 足够 多 的 变量 了 : 


Colors = c("blue", "green3","orange",) 
numcols <- length (names (df)) 
par (mfrow=c (3,5)) 
fort 1 lnmeolLsl 

if(is.factor (df[,1i1]))t 

if( as.integer (nlevels (df[,i1]) <= 20) )) 

plot (df [,1i1],main=names (df) [1],col=colors,) 

} 
else{hist (df[,1i],main=names (df) [1],xlim=c(0,300000),breaks=100,xlab=names (d 
f)[1],col=colors) 


Hospital.County Age.Group Gender Race Ethnicity 
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Bronx Manhattan 0to 17 30to 49 70 or Older F M BlackAfrican American White Not Span/Hispanic Unknown 


0 20000 


AdmitDay.of.Week Patient.Disposition Discharge.Day.of.Week APR.Risk.of.Mortality APR.Medical. Surgical.Descriptio 
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0 20000 


| PE 


THU WED Another Type Not Listed Short-term Hospital T THU WED Extreme Minor Medical Surgical 


mergency.Department.Indicato Total.Charges Total.Costs 
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Frequency 
0 10000 
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0 20000 


100000 200000 300000 





Total.Charges Total.Costs 
将 汇总 按 组 拆 分 


在 急 步 查看 数据 之 后 ， 有 个 很 好 的 想法 就 是 按照 某 些 类 别 (或 因子 ) 来 拆 分 目标 变量 ,然后 再 看 它们 的 各 种 汇 思 统计 。 可 以 
用 SQL 来 做 到 这 点 ; 然而 ， 在 当前 的 示例 中 要 使 用 一 个 有 用 的 包 dplyr， 它 的 语法 和 和 SQL 风格 很 像 ， 对 任何 熟悉 SQL 和 Linux 的 人 
来 说 ， 都 很 容易 上 手 。 


我 们 的 目标 之 一 就 是 根据 一 些 因 子 对 Total.Costs 做 拆 分 ， 以 便 看 一 下 是 人 否 能 在 成 本 的 不 同 水 平 之 间 找 出 些 不 同 之 处 。 先 做 
些 比较 简单 的 事情 ， 如 按照 一 星期 的 各 天 来 拆 分 Total.Costs。 为 此 ， 用 命令 把 数据 帧 df 用 管道 输入 到 dplyr 组 里 面 ， 然 后 用 
summarize () 义 数 计算 Total.Costs 的 个 数 、 均 值 和 和 总和。 最后， 用 %>% 操 作 竺 把 输出 送 到 (或 者 用 管道 输送 ) View 函 数 : 


library (dplyr) 
df %>% GroupP_by (Admit .Day.of.Week) %>% 
summarize (total.count=n(),sum(Total.Costs),mean (Total.Costs)) %>% View() 


FT coun * | sumtroral cos) * [meantTotal Costs) 
mm | | 601067| 4452367 
a | eol aa 97 
sr | 4 17503874| soo7213 


ls | oo es 
Sm | sy| 2060265| a30m60 
le | | 020] 276 
wo | om| zz20%| aes4ar 





Total.Costs 这 个 变量 看 起 来 在 一 周 的 每 一 天 都 是 基本 相等 的 。 如 果 你 现在 正在 以 某 种 方法 论 运行 你 的 项 目 ， 此 时 很 适合 开 


始 持续 跟踪 你 的 某 个 结果 文件 夹 中 的 结果 ， 而 且 需 要 注意 的 是 ， 你 需要 做 一 个 统计 测试 (例如 t-test 或 者 ANOVA) 来 测试 一 周 
各 大 的 明显 不 同 之 处 。 


旦 . 
里 , 


标准 化 数据 
对 于 医院 数据 集 ， 还 有 一 两 种 转换 可 以 尝试 。 


可 以 把 两 个 变量 Total.Costs 和 Total.Charges 做 一 下 标准 化 ， 这 样 可 以 更 方便 地 比较 两 者 。 预 测 性 模型 希望 看 到 标准 化 的 变 
因为 标准 化 的 变量 有 差不多 一 样 大 的 变化 幅度 ， 这 样 不 容易 产生 对 某 一 种 变量 的 倾 宪 。 


标准 化 融 是 把 数据 归 一 化 成 均值 为 0， 标 准 差 为 1。 计 算 方法 是 取 每 个 数据 ， 减 去 均值 ， 再 把 结果 除 以 标准 差 。 


在 前 面 的 示例 中 ， 显 式 地 引用 了 变量 的 完整 名 称 〈 例 如 df$Total.Costs， 引 用 在 数据 帧 df 里 面 的 变量 Total.Costs) 。 如 果 你 


要 引用 一 个 数据 幢 中 的 多 个 变量 ， 有 时 候 可 以 使 用 一 个 attach 语 句 来 实现 ， 如 果 你 的 目的 是 忌 引 用 同一 个 数据 帧 ， 有 了 这 个 语句 
就 可 以 不 使 用 $ 符 号 来 引用 变量 。 


入 : 


在 开头 使 用 attach (df) 命令 ， 这 样 就 可 以 使 用 df 激 据 帧 里 面 变 量 较 短 的 名 字 : 
attach (df) 


计算 一 个 新 的 标准 化 变量 ， 用 每 一 个 Total.Costs 变 量 减 去 所有 Total.Costs 变 量 的 均值 ， 再 除 以 Total.Costs 的 标准 差 : 


Total.Costs.z <—- mean( (Total .Costs - mean (ITotalLl .Costs)) / sdl(Total.Costs)) 


也 可 以 用 scale () 函数 来 达到 相同 的 目的 ， 而 且 稍 微 简 化 了 计算 : 


Total .Costs.z <- scale (dfSTotal .CostS) 
Total.Charges.z <- scale (df$Total.Charges) 


为 了 证 明 刚 才 做 的 转换 是 精确 的 ， 输 出 新 变量 的 mean 和 df， 验 证 均值 是 0， 标 准 差 是 1。 请 注意 ， 结 果 会 有 一 些小 的 四 舍 五 


mean (Total.Costs.z) 
sd(Total.Costs.z) 
mean (Total.Charges.z) 
sd(Total.Charges.z) 


把 变量 改 成 其 他 类 型 


如 果 你 查看 一 下 前 面 的 str () 函数 的 输出 ， 会 看 到 目前 Length.of.Stay 定 义 为 一 个 因子 。 需 要 用 as.integer 函 数 把 它 转 换 成 
个 新 的 变量 。 把 它 转 换 成 一 个 整数 ， 并 用 str () 和 summary () 函数 来 检验 一 下 转换 结果 是 否 正 确 : 


los.int < as.integer (Lendth .oft .Stay) 
head (los.1int) 
summary (los.1int) 


把 变量 附加 到 现存 的 数据 帧 
我 们 现在 要 用 刚才 创建 的 3 个 新 变量 ， 在 现存 的 数据 帧 末尾 添加 新 的 向 量 ， 并 给 它 一 个 新 的 名 字 : 


drz. ®— COINnGldrt .IoLaLl .CUAarges 2, LOLalL .GOSLS .2 L008 LIDE 
下 站) 


提取 一 个 子 集 


你 可 能 想 要 尝试 一 下 另外 一 个 典型 的 任务 : 首先 ， 从 数据 中 提取 一 个 特别 的 属性 (例如 已 经 “Expired” 的 病人 ) ， 然 后 执 

一 个 相似 性 分 组 来 尝试 理解 它们 有 什么 不 同 。 在 这 个 示例 中 ， 还 要 使 用 dplyr 包 ， 先 提取 那些 进入 医院 之 后 过 世 的 病人 ， 然 后 
根据 各 病人 的 主要 诊断 分 类 来 汇 忌 其 TotalCosts。 最 后 ， 要 对 花费 进行 排序 ， 找 出 最 贵 的 诊断 分 类 。 正 如 你 从 结果 中 看 到 的 ,与 
传染 性 疾病 相关 联 的 花费 是 最 中 的 : 


df %>% filter(as.character (Patient .Disposition) == "Explred") %>% 
group,_by (APR.MDC .Description) %>% 

summarize (total.count=n(),TotalCosts=sum(Total.Costs)) %$>% 
arrange (desc (TotalCosts)) %>% heada () 


APR.MDC. DESCcription total.count TotalCosts 

(fctr) Cint) (db1) 

Infectious and Parasitic Diseases, Systemic or Unspecified Sites 4020 163413560 
Diseases and Disorders of the Respiratory System 1556 59766742 


Diseases and Disorders of the Circulatory System 1126 56659503 
Diseases and Disorders of the Digestive System 635 37725309 
Diseases and Disorders of the Nervous System 723 30941505 

Diseases and Disorders of the Kidney and Urinary Tract 351 17718863 





3.4 ” 转 置 数据 帧 


有 时候 你 拿 到 的 数据 是 纵向 排列 的 ， 但 是 你 想 把 它 旋转 一 下 ， 这 样 变量 束 是 横向 排列 的 了 。 这 种 区 别 也 称 作 长 格式 和 过 格 
式 。 大 多 数 了 预测 分 析 包 是 设置 为 使 用 长 格式 的 ， 但 你 还 是 经 常会 遇 到 一 些 情况 需要 把 行 和 列 互相 转换 一 下 。 也 许 输入 的 时 候 是 以 


一 组 键 值 对 的 形式 ， 而 你 希望 可 以 把 它们 映射 为 一 个 实体 的 特征 。 还 有 ， 如 果 一 些 时 间 序 列 数据 的 数值 是 以 长 格式 输入 的 ， 需 要 
重新 格式 化 一 下 以 便 时 间 什 呈 水 平方 向 显示 ， 那 么 也 需要 这 种 转换 。 


此 处 有 一 个 数据 帧 ， 包 含 了 第 一 个 季度 中 每 个 成 员 每 个 月 份 的 销售 数据 。 把 数据 直接 粘贴 到 代码 中 ， 然 后 在 调用 
read.table () 函数 时 使 用 text= 选项 来 读 取 表 格 数据 。 例如， 下 面 融 是 从 一 个 Excel| 表 格 中 直接 粘贴 过 来 的 数据 : 


sales_ vertical <- read.table (header=TRUE, text=" 
memberid Month sales 

1 1 
3 
|| 

6 
20 
下 二 

9 
3 
43 
1 
| 
| 


-起 OODNONODNDODPP PP 
PODDPOOODDP CDN 


) 


运行 上 面 这 段 代 码 之 后 ， 用 sales vertical 命 令 来 显示 控制 台 里 的 数据 ， 格 式 类 似 于 调用 read.table () 函数 时 在 代码 里 写 的 
那样 : 


>sales_ vertical 
memberid Month sales 
1 J 1 
| 
11 
6 
20 
11 
9 
二 


43 
] 1 


| 
12 


oo ~ OOOD PP 


OO ODDP PP 
OPOODODPOOODNDODPOCOW NN 


为 了 把 行 和 列 互相 转化 ， 要 使 用 tidyr 包 里 面 的 spread 消 数 : 


lnstall.packages ("tidyr") 

JDrarv ltLiadve) 

sales_horizontal <- spread(sales_vertical, Month, sales,) 
sales_horizontal 


上 面 的 最 后 一 行 把 转 置 的 结果 输出 到 控制 台 。 查 看 一 下 控制 台 上 的 输出 ， 验 证 原先 的 行 (memberids) 现在 已 经 变 成 了 
列 。 每 个 销售 数据 也 都 呈现 为 列 ， 每 询 的 名 字 融 是 各 个 月 份 。 另 外 ， 有 些 月 份 的 销售 数据 是 不 仔 在 的 ， 所 以 用 NA 来 表示 。 例 
如 ， 在 原始 数据 中 ， 成 员 12 是 唯一 一 个 在 第 4 个 月 有 销售 数据 的 人 。 在 第 4 个 月 的 列 中 这 个 数据 为 12， 但 是 因为 其 他 成 员 在 这 个 


月 都 没有 销售 数据 ， 所 以 他 们 的 数据 表示 为 NA。 


>Sales_horlzontal <- spread(sales vertical, Month, sales,) 
>sales horizontal 
memberid 1 2 3 4 


1 .EY 3 3 NA 

2 2 620 11 NA 

3 3 9 33 43 NA 

4 4 11 NA 13 12 
虚设 变量 编码 


虚设 变量 是 一 个 二 进 制 的 标志 (0 或 者 1) ， 用 来 表示 一 个 特征 是 存在 还 是 缺失 的 。 如 果 你 使 用 了 虚设 变量 ， 那 么 你 需要 的 
虚设 变量 数目 为 : 所 有 已 知 的 等 级 再 减 去 1。 举 个 例子 ， 如 果 你 有 一 个 分 类 ， 表 示 两 个 等 级 的 湿度 ， 比 如 High 和 Low， 你 只 需要 
创建 一 个 虚设 变量 。 假 设 这 个 变量 名 为 ishumid。 如 果 湿 度 的 值 是 High， 那 么 ishumid= 1。 如 果 湿 度 的 值 是 Low， 那 么 
is.humid=0。 然 而 ， 很 多 预测 分 析 函 数 创建 虚设 变量 的 操作 是 在 内 部 进行 的 ， 所 以 现在 需要 手动 创建 虚设 变量 的 情况 比 以 前 少 
了 。 但 是 你 可 能 还 需要 创建 标志 来 表明 一 个 分 类 变量 的 等 级 ， 这 可 能 有 助 于 布局 ， 创 建 定制 转换 ， 以 及 在 一 个 统计 模型 中 手动 创 
建交 互 。 有 若干 种 方法 可 以 使 用 ;可 以 用 Dummies 包 ， 它 能 自动 创建 虚设 变量 。 但 是 也 可 以 用 Model Matrix 函 数 在 编程 中 实现 


、 


六 
水 


下 面 的 示例 使 用 Segment 分 类 变量 ， 它 包含 5 个 等 级 (A ~E) ， 并 扩展 为 4 个 不 同 的 虚设 变量 。 


set.seed(10) 

model <—- data.frame (y=runif (10), x=runif (10), 
segment=as.factor (sample (LETTERS[1:S]))) 

head (model) 


A <—- model.matrix(y ~ x + segment,model) 
head (A) 


> head (model) 


y XxX Seedment 

1 Qo ro20 QIl10597 E 
2 US00T08DL Udorr37b CS 
3 0.42690767 0.1135090 D 
4 Uo.U2U8. 0 .S9392303 A 
Lo 03686050U0 B 
6 0.22543662 0.4288094 E 
> A <- model.matrix(y ~ X + segment,model) 
> head (A) 

(Intercept) x SegmentB segmentC segmentD segmentE 
] 1 UbDl60551 0 0 0 
2 1 So L379 0 ] 0 0 
3 | 6 i I Be Fe 8 0 0 1 0 
4 I A 0 0 0 0 
9 1 如 1 0 0 0 
6 1 0.4288094 0 0 0 | 


分 箱 : 数值 和 字符 


数值 形式 的 变量 经 弟 会 分 箱 到 一 些 类 别 ， 例 如 高 、 低 、 中 等 ， 或 者 高 风险 和 低 风 险 。 尽 管 这 样 做 会 丢失 一 些 信息 ,但 可 以 使 
一 个 变量 能 在 逻辑 回归 中 使 用 ， 或 者 仅 仪 达到 简化 使 用 的 目的 。 有 很 多 不 同 的 方法 可 以 用 于 决定 在 哪些 点 将 变量 分 段 ， 但 是 最 简 
单 的 方法 就 是 把 变量 分 成 两 个 相等 的 部 分 。 以 sales_horizontal 数 据 为 例 ， 可 以 创建 一 个 新 的 分 类 变量 把 销售 数据 分 成 高 和 低 两 
个 类 别 。 要 调用 cut () 函数 创建 一 个 新 变量 sales_cat， 把 销售 数据 分 成 两 个 部 分 。 


sales verticalS$sales cat <- cut (sales verticalS$sales, 2, labels = 
Git" 
sales_vertical 
memberid Month sales sales_cat 
1 1 Lk 
15 
11 
6 
20 
11 
9 
33 
43 
11 
1 3 
1 


co ~ OUROODPFP 


\O 
EE ES Ev EE Ee 


心 心心 mNN 忆 中 人 改 
性 上 CND 必 CN 上 CD DN 


字符 数据 经 单 根据 一 些 分 层 来 分 组 。 但 是 偶尔 也 可 能 想 根 据 一 些 文 本 模板 把 含有 这 些 模板 的 字符 串 进行 分 组 。 这 里 有 一 个 对 
字符 数据 进行 分 箱 的 示例 ， 根 据 年 份 (cats 的 最 开始 4 个 字符 ) 来 分 箱 : 


cats <- as.factor(c{('2016-17,'2016-2','2016-3"')) 
sales <—- c(10,20,30) 
x <— cbind.data.frame (cats,sales,) 
这 
S 忆 [这 |} 
binned <— x 
binned 
levels (binneds$scats) <- substring(levels (binnedscats), 1, 4) 
binned 
> cats <- as.factor{(tc{('2016-1", "2016-2",'2016-3")) 
> sales < 一 c(10,20,30) 
> x <— cbind.data.frame (cats,sales,) 
> x 
cats sales 


1 2016—1 10 
L022 20 
3 马上 石生 3 了 
~ BEEP 
ata frame"s 3 Gha,. Of. 2 Varlables: 
5 cats ”Factor w/ 3 levels "2016-1"™ "2016=2",..: 1 2 3 


5 sales: num 10 20 30 


> binned < 一 x 
> binned 
cats sales 


1 2016-1 10 
2 2016-2 志明 
3 2016-3 30 
> levels(binneds$scats) <- substring(levels (binnedscats), 1, 4) 
> binned 
cats sales 
1 这 16 1 
2 2016 20 
3 UL6 30 


现在 ,根据 其 包含 的 文本 字符 串 ， 所 有 的 数据 都 被 分 箱 到 了 适合 的 年 份 : 


aggregate (binneds$ssales, by=list (binneds$scats), sum ) 


结果 显示 在 控制 从 : 


> aggregate (binnedssales, by=list (binned$cats), sum) 
GTOUDsL 和 2 
1 2016 60 


3.5 ”缺失 值 


缺失 值 表示 一 个 变量 是 没有 赋值 的 。 因 为 数据 收集 总 是 不 可 能 完美 的 ， 所 以 经 单 会 有 一 些 数 值 是 缺失 的 ， 由 于 人 们 的 忽视 ， 
或 者 由 于 一 些 系统 性 的 流程 接触 了 数据 而 造成 。 可 能 由 于 一 个 调查 问卷 的 答题 人 没有 完成 一 个 问题 ， 或 者 如 我 们 所 见 ， 可 能 由 于 
把 一 个 成 员 文 件 和 一 个 事务 文件 连接 起 来 而 造成 。 人 在 这 种 情况 下 ， 如 果 一 个 成 员 在 某 一 年 没有 购买 数据 ， 融 会 出 现 一 个 NA 或 者 
缺失 。 


处 理 缺 失 值 的 第 一 个 行动 是 理解 它 是 由 什么 造成 的 。 在 布局 缺失 数据 的 过 程 中 ， 你 不 仅 想 要 知道 缺失 值 的 数量 ， 还 想 要 确定 
哪些 子 段 是 造成 喘 失 信 的 原因 。 


在 研究 原因 时 ， 可 以 尝试 突破 原来 的 分 析 ， 根 据 时 间 周 期 和 其 他 属性 ， 使 用 前 面 提 太 的 一 些 双 变量 分 析 技 术 。 这 样 做 有 助 于 
识别 出 那些 缺失 的 数据 是 在 哪里 被 藏 起 来 了 。 


3.5.1 ”建立 缺失 值 测试 数据 集 


我 们 要 从 两 组 生成 的 数据 开始 。 一 组 是 关于 男性 的 ， 其 中 以 3% 的 概率 没有 回答 调查 中 关于 年 龄 的 问题 ; 另外 一 组 是 关于 女 
性 的 ， 其 中 没有 回答 年 龄 问题 的 概率 是 2%: 


library (wakefield) 
lipbrary (dplyr) 


#generate some data for Males with a 5% missing value for age 


set.seed(10) 

f.df < 一 r data framel 
n = 1000, 
age, 


gender (x 一 NT 
education 
) %$>% 


r_nal(col=1,prob=.05) 


下 
summary (f .df) 
set.seed(20) 


prob = c(0,1),name="Gender"), 


#generate some data for Females with a 3% missing value for age 


m.df <—- r data frame ( 
n = 1000, 
Aage, 


gender (x = CcC("M", "FE"), 


education 
) %$>% 
r_nal(col=1,prob=.03) 
summary (m. df) 


prob = c(i1,0),name="Gender"), 


all.df=rbind.data.frame (m.df,f.df) 


请 注意 ， 把 r_data_frame () 函数 的 输出 通过 管道 送 到 r_ na () 消 数 ， 这 个 过 程 产生 了 数据 缺失 ， 并 按照 指定 的 百分比 来 
生成 缺失 值 。 在 脚本 运行 完 之 后 ， 切 换 到 控制 人 台 ， 验 证 一 下 age 变 量 中 生成 了 一 些 NA。 一 共 会 有 80 个 : 


summary (all .df) 


> summary(all. df) 
Age 
Min. :20. 
1st QU. :23. 
Median :28. 


Gender 
M:1000 
F:1000 


i 
-人 
下 上 上 下 
: 80 


3.5.2 ”缺失 值 的 不 同类 型 





Regular High school Diploma 

Bachelior s Degree 

some College, 1 or More Years, NO Degree:295 
9th Grade to 12th Grade，No Diploma :169 
Master 5 Degree :150 
ASsSOCiate 5 Degree 

(Other ) 


在 实践 中 你 应 该 熟知 的 缺失 值 和 有 三 种 不 同 的 类 型 。 理 解 缺 失 值 的 类 型 有 助 于 你 决定 如 何 应 对 它们 。 


完全 随机 缺失 


有 些 部 分 的 缺失 值 总 是 目 然而 然 地 友 生 。 当 出 现 这 种 情况 时 ， 缺 失 的 数据 叫 作 完全 随机 缺失 (MCAR) 。 举 个 例子 来 说 ,一 
个 调查 中 有 2% 的 数据 因为 调查 回答 系统 的 小 缺陷 而 没有 被 记录 。 在 这 种 情况 下 ， 可 以 假设 这 种 缺失 和 数据 中 任何 其 他 变量 都 无 
天 。MCAR 变 量 和 其 自身 的 数据 取 值 也 没有 关系 ， 与 数据 中 的 任何 其 他 非 缺 失 值 也 是 没有 关联 的 。 


MCAR 的 检验 


如 果 你 怀疑 数据 有 MCAR， 有 多 种 不 同 的 统计 测试 可 以 帮助 你 确定 MCAR 是 否 真 的 友 生 了 。 有 一 种 重要 的 检验 是 Little 检 
验 ， 现 在 要 在 检验 用 的 缺失 值 数据 集 上 运行 它 。 


首先 ， 安 装 BaylorEdPsych 包 ， 它 包含 了 LittleM CAR 检 验 : 


try(regqulire (BaylorEdPsych) | | 
lnstall.packages ("BaylorEdPsych", dependencies=TRUE,), 
library (BaylorEdPsych) 


现在 ， 运 行 LittleMCAR 检 验 : 
test mcar<—-LittleMCAR (all.df) 


输出 检验 中 发现 的 缺失 值 。 友 现 有 4% 的 数据 是 缺失 的 。 这 个 结果 非常 合理 ， 因 为 在 生成 的 数据 中 ，1000 名 男性 中 有 5%、 
1000 名 女性 中 有 3% 都 是 NA。 


print (test_mcarSamount .missing) 
print (test mcarsp.value) 


> print(test_mcar$amount.m1iss1ng) 
Age Gender Educat1on 


Number M1ss1ng 80.00 0 0 
Percent Missing 0.04 0 0 





输出 测试 统计 值 。p 的 高 值 表 示 该 数据 属于 MCAR， 而 低 值 表示 有 一 些 模 板 存 在 。 如 果 显 车 性 水 平 为 0.05， 它 可 以 通过 
MCAR 检 验 (但 是 很 险 ) 。 我 们 知道 在 这 个 模拟 中 还 是 使 用 了 目 己 的 NA 模板 ， 所 以 会 产生 0.07 的 p 值 。 


> print(test_mcar$p.value) 


[1] 0.06782777 





还 有 ， 可 以 使 用 卡 方 检验 和 回归 检验 来 确定 一 个 数据 的 缺失 是 否 和 另 一 个 变量 有 天 联 。 如 果 你 上 友 现 在 缺失 的 变量 和 任何 其 他 
变量 之 间 没 有 统计 显著 性 ， 可 以 考虑 把 该 变量 看 作 MCAR。 这 些 检验 可 能 非 癌 有 价值 ， 昌 然 这 尝 方 法 并 不 是 防 误 措施 。 天 于 产生 
缺失 的 过 程 ， 还 需要 做 一 些 假设 。 一 般 来 说 ， 最 好 的 做 法 是 调理 一 下 产生 了 缺失 全 的 流 程 ， 看 看 是 "后 么 产生 的 。 


随机 缺失 


随机 缺失 (MAR) 表示 数值 的 缺失 和 分 析 中 的 另外 一 个 变量 有 关联 。 这 是 一 个 不 太 恰 当 的 名 称 ， 因 为 这 种 缺失 根本 束 不 是 
随机 产生 的 。 


所 以 在 处 理 缺 失 值 的 时 候 ， 需 要 问 的 另 一 个 问题 融 是 : “是 人 否 存 在 这 样 的 事实 ， 即 这 个 变量 的 缺失 值 和 某 个 其 他 变量 的 动态 
变化 有 关系 ? ”还 使 用 我 们 的 模拟 调查 来 作为 例子 ， 这 次 缺失 值 是 天 于 “你 期 望 的 新 水 是 多 少 ” 的 。 这 个 可 能 友 生 在 某 个 年 龄 段 
的 分 组 没有 回答 这 个 问题 的 时 候 。 如 果 你 友 现 缺失 值 在 某 个 因子 的 一 个 水 平 上 有 一 个 统计 显著 性 数值 ， 但 是 在 其 他 的 水 平 上 没有 
那么 多 ， 这 可 能 表示 数据 是 随机 缺失 的 。 使 用 前 面 用 过 的 相同 技术 可 以 友 现 一 个 MAR 的 变量 ， 也 束 是 卡 方 检 验 、 回 归 和 Little 检 
验 。 如 果 友 现 有 不 同 之 处 ， 可 以 考虑 该 变量 可 能 是 MAR。 对 我 们 的 测试 用 缺失 数据 集 ， 我 们 会 考虑 MAR， 因 为 男性 和 女性 缺失 
值 的 数量 不 同 。 


完全 非 随机 摧 失 


一 个 变量 既 不 是 完全 随机 缺失 ， 也 不 是 随机 缺失 ， 那 它 可 能 是 完全 非 随机 缺失 (NMAR) 。 这 基本 上 是 说 缺失 值 和 其 目 身 
的 取 值 有 关系 ， 或 者 和 一 个 不 在 模型 中 的 变量 有 关系 。NMAR 值 经 单 企 调查 研究 和 医学 研究 中 出 现 ， 因 为 研究 对 象 是 根据 时 间 
来 测量 的 。 例 如 ， 一 个 调查 对 象 在 研究 开始 的 时 候 报 告 了 几 次 抑郁 ， 在 研究 结束 时 候 可 能 已 经 退出 了 调查 ， 所 以 如 果 他 们 的 抑郁 
程度 得 分 很 高 ， 那 可 能 跟 他 们 在 后 来 的 一 些 日 期 中 的 得 分 缺失 有 关联 ， 因 为 他 们 可 能 更 倾向 于 退出 。 


NMAR 是 最 难以 检测 的 情况 ， 因 为 一 个 变量 可 能 看 起 来 是 MAR 或 者 MCAR， 但 其 实 是 NMAR。 缺失 值 分 析 并 不 是 一 个 精确 
的 方法 ， 所 以 需要 再 次 强调 ， 在 这 个 方面 ， 懂 得 领域 知识 ， 了 解 底层 的 数据 生成 方法 ， 是 非常 重要 的 。 


3.5.3 纠正 缺失 全 


尽管 弄 清楚 你 的 缺失 值 的 原因 很 重要 ， 但 最 终 还 是 得 根据 你 用 于 分 析 数 据 集 的 技术 来 应 对 这 些 缺 失 值 。 例 如 ， 一 些 分 类 方法 
(决策 树 、 随 机 森林 等 ) 知道 怎么 处 理 缺失 值 ， 因 为 它们 会 把 缺失 值 看 作 一 个 独立 的 分 类 ， 你 可 以 把 缺失 值 安全 地 留 在 模型 中 。 
然而 ， 如 果 一 个 变量 有 大 量 的 缺失 值 ， 例 如 超过 20%， 那 么 你 可 能 想 要 看 看 那些 替换 拉 术 ， 或 者 尝试 用 别 的 更 好 的 变量 来 测量 同 
一 个 对 象 。 


存在 缺失 值 删除 


对 于 MCAR， 删 除 那些 含有 缺失 值 的 行 是 可 以 接受 的 。 在 下 面 这 个 例子 中 (来 
自 https://en.wikipedia.org/wiki/Listwise_deletion) ， 观 察 值 3、4 和 8 都 会 在 进行 分 析 之 前 删除 掉 。 
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然而 ， 和 存在 缺失 值 删 除 的 负面 影响 是 你 可 能 最 后 删除 了 一 些 非 缺 失 的 变量 ， 而 它们 本 可 能 对 模型 产生 重大 的 影响 。 但 是 因为 
预 乞 假设 缺失 值 是 随机 的 ， 删 除 一 些 行 不 应 该 产生 大 的 影响 ， 前 提 是 你 的 假设 是 正确 的 。 


另 一 个 需要 考虑 的 是 ， 你 需要 处 理 的 数据 量 。 你 肯定 不 想 由 于 一 个 缺失 值 而 不 得 不 抛弃 所 有 的 数据 ， 或 者 删除 挥 大 部 分 的 数 
据 ! 如 果 遇 到 这 种 情况 ， 那 么 看 看 是 人 否 能 把 这 个 变量 删除 ， 然 后 用 余下 比较 完整 的 变量 来 分 析 。 


例如 ， 如 果 你 的 多 数 记录 里 面 都 有 邮政 编码 ， 但 是 只 有 509% 左 右 的 记录 里 面 有 州 名 称 变量 ， 那 么 你 可 以 不 用 把 邮政 编码 和 州 
名 称 两 个 变量 一 起 用 到 算法 里 去 ， 然 后 由 于 人 至 少 有 250% 的 数据 有 缺失 值 而 进行 仓 在 缺失 值 删除 (例如 回归 ) 。 所 以 ， 首 选 的 应 对 
万 法 是 看 看 这 个 变量 是 不 是 还 需要 使 用 (可 能 使 用 某 种 变量 重要 性 测量 ) ， 或 者 看 看 是 人 否 有 其 他 的 、 数 据 更 完整 的 变量 ， 可 以 作 
为 蔡 代 品 来 使 用 。 主 成 分 分 析 和 相关 分 析 可 以 帮助 你 识别 这 种 情况 。 


在 换 万 法 


蔡 换 一 个 缺失 值 表示 用 另 一 个 合理 的 值 来 替换 那个 确实 值 。 合 理 的 意思 可 能 是 把 缺失 值 蔡 换 为 均值 、 中 值 ,或 者 变量 到 回归 
技术 的 模式 ,或 者 更 先进 的 技术 (例如 蒙特 卡 罗 仿 真 ) 。 


用 mice 包 来 做 蔡 换 缺失 值 


在 下 面 这 个 例子 中 ， 我 们 要 使 用 mice 包 来 蔡 换 all.df 数 据 帧 中 的 age 变 量 的 一 些 缺失 值 。 用 两 种 其 他 的 现行 变量 来 替换 age 
变量 的 值 : gender 和 education。 


开始 时 ， 安 半 和 加 载 mice 包 : 

1nstalLL.packadgdes ( IILCe |) 

library (mice) 

现在 运行 md.pattern () 函数 ， 来 显示 缺失 值 在 数据 帧 的 其 他 列 中 的 分 布 。md.pattern () 函数 的 输出 很 有 用 处 ， 从 中 可 
以 看 出 那些 变量 可 以 很 好 地 代 蔷 缺失 值 来 使 用 。 

md.patternl(all.drf) 

md.pattern () 函数 的 输出 在 后 面 将 会 展示 。 每 一 行 都 会 显示 一 个 观察 计数 ， 后 面 跟着 一 个 1 或 者 0 标志 ， 表 示 这 个 计数 是 
否 包 含 了 完整 生成 的 数据 。 


第 一 行 表 示 有 1920 个 观察 中 Gendr、Education 和 Age 都 没有 缺失 值 。 


“ 第 二 行 表 示 有 80 个 观察 中 也 有 Gendr 和 Education 的 值 ， 但 是 没有 Age 的 值 。 


查看 md.pattern () 函数 输出 很 重要 ， 可 以 看 出 在 其 他 的 变量 里 面 是 否 有 足够 的 非 缺失 值 ， 以 便 决 定 它们 是 否 有 能 力 蔡 换 
缺失 全 。 


> md.pattern(all. df) 
Gender Education Age 
] ] 了 0 


1 1 0 1 
0 0 80 80 





在 蔡 换 过 程 开 始 时 ,调用 mice () 函数 ， 并 赋值 给 一 个 新 的 R 对 象 


ImP <- mice(all.df,m=5,maxit=50, seed=1010,printFlag = TRUE) 

` 在 调用 函数 时 ， 确 保 提 供 一 个 随机 数 种 子 值 ， 以 便 你 再 次 运行 这 段 代码 时 可 以 得 到 相同 的 结果 。 

- 参数 m=5 指 定 了 你 最 终 需 要 5 个 合理 的 替代 品 来 替换 变量 。 

参数 maxit=50 指 定 了 这 个 算法 最 多 和 迭代 50 次 来 收敛 到 一 个 解决 方案 ， 并 可 以 根据 需要 的 精确 度 来 上 下 微调 这 个 选 代 次 数 。 
在 运行 完 mice () 六 数 之 后 ， 你 会 看 到 蔡 换 在 实时 运行 ， 所 以 可 能 它 会 化 一 段 时 间 ， 这 取决 于 你 所 定 的 迭代 次 数 。 


head (imp$1impsAge) 


> head (1mp$51impsAge) 
1 A 各 
30 9 SD ZU 33 2 
9 2D ZH dU D2 Z| 
1 避 ”这 和 ”和 
99 3 30 22 26 24 
157 24 30 24 23 22 
LD 这 对 ”2 ZZ 2Z8. 2 


为 了 切实 地 完成 替换 ， 你 必须 运行 Complete () 函数 并 把 它 的 结果 赋值 给 一 个 新 的 数据 帧 。 这 个 版 本 的 complete () 函数 
如 果 指 定 了 “long” 参 数 的 话 ， 束 会 把 数据 帧 里 面 的 所 有 的 蔡 换 都 收集 起 来 。 
all_imputed_ df <- complete(imp, "long", include=TRUE) 


在 新 得 到 的 数据 帧 上 运行 table () 函数 ， 计 算 所 有 蔡 换 掉 的 缺失 值 的 数量 ， 再 加 上 原来 的 初始 数据 。 原 来 售 有 NA 的 数据 帧 
用 imp=0 来 表示 。 


还 有 其 他 5 个 年 龄 值 被 替换 了 ， 分 别称 作 imp 1-5: 


table(all_imputed dfs$.imp,is.na(all_imputed_ dfS$Age)) 


> table(all_imputed_df$.1mp,71s.na(all_imputed_df$Age)) 


FALSE TRUE 
1920 8 
2000 
2000 
2000 
2000 
2000 





为 了 看 到 替换 的 动作 ， 我 们 要 过 滤 新 数据 帧 ， 针 对 初始 的 其 中 一 个 ID (#216) ， 它 含有 一 些 缺失 值 。 


然后 我 们 可 以 看 到 ，age 的 值 如 何 被 每 个 替换 age 的 动作 改变 。 蔡 换 值 之 间 会 有 一 些 不 同 。 例 如 ， 它 可 能 在 25 ~ 34 之 间 取 一 


Education 


个 值 。 
all_imputed_df %>% filter(.id == 216) 
>all_imputed_df %>% filter(.id == 216) 
.lmp .id Age Gender 
1 0 216 NA M Some College, 1 
2 1 id 25 M Some College, 1 
3 2 216 29 M Some College, 1 
4 3 26 22 M Some College, 1 
3 4 216 34 M Some College, 1 
6 D 216 34 M Some College, 1 


More 
More 
More 
More 
More 
More 


Years, 
Years, 
Years, 
Years, 
Years, 
Years, 


No 
No 
No 
No 
No 
No 


Degree 
Degree 
Degree 
Degree 
Degree 
Degree 


当然 ， 这 是 一 个 人 简 蛙 的 观察 ， 如 果 你 查看 imp=1-6 的 均值 ， 
all_ijmputed_df %>% group,_by(.1imp) 


# A tibble: 
.lmp MeanAde 
otry Col 
0 NA 

4 之 了 已 
OO 
了 
21 .000905 
a 


6 x 2 


OO OOOD PP 
ON 


3.5.4 ”使 用 蔡 换 过 H 值 运 行 回 归 


会 上 友 现 它们 很 相近 : 


%>% summarize (MeanAge=mean (Ade) ) 
> all_imputed_ df %>% group,_by(.1imp) 


$$>% summarize (MeanAge=mean (Ade) ) 


既然 你 已 经 蔡 换 了 age 中 的 缺失 值 ， 现 在 应 该 可 以 运行 一 些 诸 如 线性 回归 之 类 的 模型 ， 并 且 不 用 抛弃 缺失 值 了 。 


让 我 们 尝试 使 用 替换 万 案 #2 来 运行 回归 |。 


首先 ， 提 取 蔡 换 #2 的 数据 : 


lmpute.2 <— subset (all_imputed_ df, .imp=="2") 


然后 ， 在 控制 台 运行 summary () 函数 ， 确 保 数 据 中 没有 NA: 


> summary (ImPute .2) 
-LH | Ade Gender 
ud :1 Mn :20.00 M:1000 
40 | at QU aU FLUQ0 
:2000 100 : 1 Median :28.00 
0 1000 : 1 Mean :27.58 
LON 和 3 Sd OusE320.00 
G LUDz ££ 1 Max. 35.00 
(Other):1994 
Education 
Regular High School Diploma 2 
Bachelor's Degree -ee 
Some College, 1 or More Years, No Degree:295 
9th Grade to 12th Grade, No Diploma :169 


( 必 D 上 上 CD 


Master's Degree -i 
Associate's Degree :140 
(Other) :401 


lIm(Age ~ Education + Gender,data=impute.2) 


> lm(Age ~ Education + Gender,data=impute .2) 


Gall: 
lm(formula = Age ~ Education + Gender, data = impute.2) 
Coefficients: 
(Intercept,) 
Oe B30 
EducationNursery School to 8th Grade 
USEa9D. 


Education9th Grade to 12th Grade, No Diploma 


1.02452 
EducationRegular High School Diploma 


3 

EducationGED or Alternative Credential 
上 

EducationSome College, Less than 1 Year 
[Las33ToU 

EducationSome College, 1 or More Years, No Degree 
人 

EducationAssociate's Degree 
Un 990005 

EducationBachelor's Degree 
Bp A 

EducationMaster's Degree 
0.84928 

EducationProfessional School Degree 
0.11744 

EducationDoctorate Degree 
Deg fly 
GenderrF 
-I 3031 


3.6” 蔡 换 分 类 区 量 


蔡 换 分 类 变量 可 能 比 蔡 换 数值 变量 要 复杂 一 些 。 数 值 替 换 是 基于 随机 变量 的 ， 而 替换 分 类 变量 是 基于 一 些 能 量 较 小 的 统计 检 
验 ， 例 如 卡 万 检验 ， 而 且 可 能 基于 一 些 规划， 所 以 如 果 你 要 蔡 换 分 类 变量 ,请 小心 使 用 ， 并 且 需 要 把 结果 给 领域 专家 检验 ， 看 是 
人 否 合 理 。 你 可 以 使 用 决策 树 或 者 随机 和 森林 来 为 你 的 缺失 值 做 一 个 预测 万 法 ， 然 后 使 用 决策 树 产 生 的 真实 决策 规则 把 它们 映射 到 一 
个 合理 的 预测 值 。 


异 单 值 是 数据 中 超出 了 预期 学 围 的 那些 值 。 “预期 范围 是 什么 ” ”当然 是 主观 的 。 一 些 人 会 把 分 布 中 超过 3 个 标准 差 之 外 ， 
或 者 超过 四 分 位 的 1.5 倍 的 任何 值 都 看 作 异 党 值 。 当 然 ， 这 种 做 法 不 失 为 一 个 很 好 的 开端 ， 但 实际 中 有 很 多 情况 下 数据 不 服从 任 
何 的 统计 分 布 模式 。 这 些 经 验 法 则 也 高 度 依 赖 于 数据 的 形式 。 对 正 态 分 布 来 说 ， 可 能 的 异常 值 不 会 服从 对 数 正 仿 分 布 或 者 泪 松 分 
市 。 


除了 可 能 存在 的 单个 变量 的 异 剃 值 之 外 ， 异 常 值 还 可 能 以 多 个 变量 的 形式 存 企 ， 如 果 在 高 维 空间 对 数据 进行 更 仔细 的 检查 ， 
会 友 现 这 种 情况 更 为 普遍 。 

当 出 现 异 弟 值 的 时 候 ， 需 要 对 它们 进行 仔细 检查 ， 因 为 它们 可 能 是 简单 的 错误 ， 也 可 能 会 提供 宝贵 的 见识 。 当 你 怀疑 正常 数 
据 中 仓 在 俩 差 的 时 候 ， 最 好 还 是 请 教 一 下 其 他 的 合作 者 。 


3.7.1 ”有 寞 单 值 为 什么 重要 


异 剃 值 检验 的 重要 性 是 由 于 以 下 几 个 原因 。 首 先 ， 通 过 它 你 可 以 了 解数 据 中 的 极 值 信息 。 典 型 的 数据 通常 是 很 容易 解释 的 。 
如 果 在 同一 个 特定 的 类 别 里 有 很 多 数值 ， 通 党 是 比较 容易 跟 路 和 解释 的 。 而 那些 出 现 极 值 的 地 方 可 以 让 你 得 到 典型 数据 之 外 的 洞 
见 ,或 者 友 现 需要 修复 的 流程 缺陷 。 


另外 ， 在 有 些 算 法 里 ， 异 党 值 具有 重要 的 影响 。 特 别 是 回归 方法 可 能 由 于 异常 值 的 存在 而 产生 偏 寿 ， 因 此 失去 预测 能 力 。 


3.7.2 ”探测 异 弟 值 


绘制 图 形 是 急 步 扫 摘 数据 友 现 异 单 值 的 最 好 方法 。 箱 疆 图 、 柱 状 图 和 正 态 分 布 图 都 是 很 有 用 的 工具 。 


在 下 面 的 代码 示例 中 ， 销 售 数据 的 平均 值 是 $10 000， 标 准 差 是 $3000。 箱 线 图 显示 了 有 一 些 数据 在 图 表 的 线 上 方 或 者 下 
方 。 另 外 ,柱状 图 还 显示 ， 最 高 的 柱 形 和 第 二 高 的 柱 形 之 | 介 有 明显 的 差距 。 这 些 都 是 线 厅 ， 代 表 着 可 能 有 异常 值 分 在， 需要 深入 
仔细 地 检查 : 


set.seed(4070) 

#generate sales data 

outlier.df <-data.frame (sales=rnorm(100,mean=10000,sd=3000)) 
#plot the data, to possible outliers 

par (mfrow=c (1,2)) 

boxplot (outlier.df$sales, ylab="sales") 

hist (outlier.df$sales) 


outlier.df $sales 柱状 图 
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outlier.df $sales 





男 一 个 寻找 异 弟 值 的 万 法 是 检查 实际 的 四 分 位 数 、 百 分 位 数 ， 或 者 十 分 位 数 。 这 些 度量 是 用 来 把 数据 划分 成 相等 的 若干 个 音 
分 ， 然 后 观察 各 个 部 分 之 间 的 差异 。 


deciles <- data.frame (guantile (outlier.df$sales, 
全 EC 


deciles 
>deciles 

UantLle. Ou llier .di ,SaleSs. ,DEOD,. .GO Oar Qader ed sD. 
10% 5548.897 
20% 4UYs Ao 
30% 8621.341 
40% US 
D0 9 {4 9 
60% 10364.654 
70% 11019.190 
80% a Ms 
90% 13164.274 
100% 1903645806 
转换 数据 


另 一 个 查看 异 单 值 的 万 法 是 先 把 数据 标准 化 成 正 态 分 布 ， 令 其 均值 为 0， 标 准 差 为 1。 使 用 标准 正 态 形式 有 其 便利 性 ， 因 为 
该 分 布 的 性 质 不 会 改变 ， 而 且 一 学 天 键 的 截止 点 可 以 记 住 。 比 如 说 ， 对 一 个 标准 正 态 分 布 ， 四 分 位 1 永远 是 -0.67， 四 分 位 3 永远 
是 +0.67， 所 以 很 容易 计算 出 这 两 个 四 分 位 之 间 的 范围 以 便 记 住 : 1.34。 使 用 这 个 四 分 位 间距 离 来 识别 异常 值 的 方法 是 ， 我 们 把 
这 个 值 乘 以 1.5， 得 到 的 值 是 2.01， 然 后 把 任何 高 于 0.67+2.01=2.68 的 数据 ， 或 者 任何 低 于 -0.67-2.01=-2.68 的 数据 ， 都 看 作 可 
能 的 异常 值 。 这 个 例子 说 明了 我 们 如 何 使 用 分 布 的 统计 特性 来 识别 异常 值 。 你 还 可 以 用 其 他 的 规则 ， 例 如 识别 偏离 平均 值 3 倍 标 
准 疾 以 上 的 数据 ， 或 者 使 用 卡 方 检验 来 决定 你 这 个 分 组 的 数据 和 理论 上 的 分 布 是 不 是 有 显著 的 差异 。 处 理 异常 值 的 包 还 含有 一 些 
其 他 的 方法 和 统计 学 检验 ， 包 括 Grubbs 检 验 ， 可 以 用 来 检验 异常 值 。 


此 处 我 们 首先 要 把 数据 做 标准 化 ， 然 后 寻找 那些 在 正 负 2.68 的 范围 之 外 的 数据 。 


1) 首先 ， 使 用 scale () 函数 来 标准 化 销售 向 量 ， 并 创建 一 个 新 的 向 量 v1， 该 向 量 包含 标准 化 之 后 的 数值 (或 者 标准 分 
数 ) : 


outlier.dfS$vi <- scale (outlier.dfS$Ssales) 


2) 接 下 来 ,我 们 要 使 用 order () 函数 把 标准 分 数 按照 从 低 到 高 的 顺序 排序 。 这 样 便 于 用 遂 数 head () 和 tail () 查找 极 
值 。 我 们 马上 殊 可 以 看 到 ， 有 两 个 数值 超出 了 -2.68 到 +2.68 的 范围 。 


#sort from lowest to highest 
outlier.df <- outlier.df[order (outlier.dfS$v1),] 
head (outlier.df) 


>head (outlier.df) 
sales V1 
9 doe G3 2, 0911203 
0 Zi robeDodl = .20L2 
3 Ud ONdD 290d 
69 3041.7867 -2.216905 
G3 A43603.3 OZ 7/ 
1D 4894.2080 -1.669292 


tail (outlier.df) 
>tail (outlier.df) 


sales V1 
11 15434.46 1.446619 
2 TtDsld. dtdG SY 
* 了 UL UL LS 
26 106455.81] 1]. /48549 
66 16624.87 1.798528 
39 201160.17 2.8348362 


3) 最 后 ， 我 们 要 使 用 boxplot () 消 数 给 转换 后 的 数据 绘制 图 形 。 注 意 ， 分 布 图 形 的 形状 是 和 原始 数据 完全 一 致 的 。 唯 一 
不 同 的 是 数据 的 学 围 在 y 轴 方向 上 改变 了 : 


boxplot (outlier.df$vi, ylab="v1") 


我 们 仍然 可 以 在 boxplot 图 的 顶端 看 到 可 能 的 异常 值 (就是 那个 小 加 点 ) : 


| 


追 味 异常 值 的 成 因 


一 旦 你 识别 出 了 一 个 可 能 的 异 单 值 ， 最 好 的 应 对 融 是 找 出 这 个 异 单 值 为 什么 会 友 生 。 我 们 已 经 展示 了 一 个 在 数据 集中 出 现 的 
异常 值 ; 然而， 你 更 可 能 经 党 做 的 是 把 数据 分 割 成 不 同 的 子 集 ， 来 试图 追 路 异常 值 友 生 的 原因 。 假 设 的 前 提 是 你 有 足够 的 数据 供 
使 用 。 对 小 样本 数据 做 异 剃 值 检 验 要 困难 得 多 。 


处 理 寞 单 全 的 一 综 方法 


此 处 列 出 了 一 些 处 理 异常 的 万 法 : 


“ 删除 异常 值 ， 或 者 把 它们 改 成 NA。 如 果 你 的 数据 中 异常 值 不 是 太 多 ， 这 样 做 是 可 以 的 ， 并 且 能 使 你 的 模型 更 容易 解释 。 
这 样 做 的 代价 是 你 有 可 能 删除 的 是 非常 重要 的 数据 ， 所 以 这 个 方法 要 谨慎 使 用 。 


. 使 用 菜 种 转换 来 减少 可 变性 。 根 据 数据 的 偏 儿 情况 选择 一 个 合适 的 转换 方法 ， 或 者 尝试 Box-Cox Power 转 换 。 这 样 做 的 一 
个 优点 是 ， 正 确 的 转换 方法 可 以 减少 观察 中 的 极 值 带 来 的 影响 。 


把 异 第 值 降低 到 一 个 可 预先 控制 的 水 平 。 可 以 用 一 个 修整 过 的 或 者 winsotize 变 换 后 的 均值 来 实现 这 点 。 使 用 这 种 方法 必须 
有 能 够 精确 计算 的 专业 性 ， 因 为 如 果 变 量 超出 了 一 定 水 平 ， 可 能 一 些 风险 会 被 掩盖 。 


` 选择 一 种 分 类 章法 代替 回归 类 型 的 工法， 这 样 对 异种 值 不 会 那么 敏感 。 对 决策 树 来 说 ， 异 第 值 倾 向 于 出 现在 少量 的 只 有 它 


自己 的 叶子 上 。 出 现 这 种 情况 时 ， 你 可 以 选择 名 略 那些 异常 值 ， 修 剪 决策 树 ， 把 它 折 司 到 其 他 类 别 中 。 


对 于 回归 类 型 的 算法 ， 你 可 以 选择 一 种 对 大 系数 有 惩罚 措施 的 算法 ， 例 如 ridge 或 者 lasso 回 归 ， 这 些 算 法 在 对 抗 异 常 值 方面 
有 比较 好 的 和 鲁 棒 性 。 


示例 : 把 异常 值 设置 为 NA 


理所当然 ， 下 一 步 束 是 如 何 入 手 检 查 那 些 异 剃 值 。 在 我 们 的 示例 中 ， 极 值 是 随机 数 产 生 过 程 的 一 个 部 分 ， 所 以 它们 其 实 并 不 
是 真 的 异常 值 。 然 而 ， 如 果 你 在 上 自己 的 数据 中 过 到 了 这 种 情况 ,区 应 该 开始 追溯 这 些 极 值 产生 的 原因 。 开 始 时 ， 可 以 尝试 把 这 些 
极 值 和 其 他 数据 元 素 联系 起 来 。 比 如 说 ， 也 许 这 些 异 弟 值 只 在 某 些 年 龄 组 中 产生 ， 而 在 其 他 年 龄 组 里 面 没有 。 


在 我 们 的 示例 中 ， 我 们 要 简单 地 把 这 些 极 值 都 设置 成 NA。 我 们 还 要 创建 一 个 新 的 变量 vlx 来 容纳 这 些 新 变量 ， 并 且 不 会 把 原 
先 的 变量 值 给 覆盖 了 。 当 你 研究 新 的 异 单 值 检验 方法 时 ， 可 以 把 新 的 数值 仓储 在 另外 的 变量 中 ， 这 样 可 以 保证 你 总 是 能 回头 来 使 
用 原始 的 变量 。 


outlier.dfSvix<-ifelse!l outlier.dfS$vi <= 
-2.68) ,NA,outlier.dfS$v1) 
tail (outlier.df) 


head (outlier.df) 


(outlier.dfS$vi >= 2.68 | 


请 查看 控制 全 上 显示 的 head () 函数 和 tail () 函数 的 输出 ， 请 注意 数据 中 的 变化 。 之 前 被 看 作 异 单 的 数据 (-2.917 263) 


现在 映射 成 了 NA。 

>tail (outlier.df) 

sales V1 We 
77 15434.46 1.446619 1.446619 
22 16286.14 1 .698392 1.698392 
711 16319.01 1.708109 1.708109 
26 16455.81 1. /48249 1.748549 
66 16624.87 1.798528 1.798528 
39 2Z0L16G0ld Zs848362 NA 
>head (outlier.df) 

sales V1 V1x 
59 6712.67131 -2.917263 NA 
过 
2 
9 B04], T8607 = ZL09U05 ~2 2JLb090s 
63 4363.37142 -1.826217 -1.826217 
15 4894.2080 -1.669292 -1.669292 


再 运行 一 人 boxlot () 阔 数 ， 观 察 一 下 ， 原 先 过 高 的 异常 值 现在 已 经 被 消除 了 。 


boxplot (outlier.df$vix, ylab="v1i new") 
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多 变量 异常 什 


前 面 的 示例 是 一 个 天 于 如 何 从 单 变 量 的 角度 来 检测 异 剃 值 。 然 而 ， 异 党 值 也 可 能 以 多 变量 或 者 联合 体 的 形式 出 现 。 在 这 类 情 


况 下 ， 可 以 从 把 异常 值 在 二 维 空 间 可 视 化 来 入 手 ， 但 是 当 维 度 增 加 时 ， 把 异常 值 隔 离 出 来 可 能 会 变 得 更 加 困难 。 对 于 多 变量 异 弟 
值 ， 你 可 以 使 用 距离 或 者 影响 度量 ， 例 如 Cook 的 D 或 者 Mahalanobis 距 离 来 测量 它们 距离 回归 线 有 多 远 。 主 成 分 分 析 可 以 在 一 
开始 束 有 助 于 减少 维度 ， 然 后 检查 排序 较 高 的 主要 成 分 ， 其 中 可 能 含有 异 剃 值 。 


3.8 ”数据 转换 


如 果 你 需要 处 理 连 续 倾斜 的 数据 ， 考 虑 一 下 对 数据 做 一 下 转换 ， 这 样 可 以 把 数据 转变 成 符合 某 些 特定 统计 分 布 的 形式 ， 并 具 
有 特定 的 属性 。 一 旦 你 把 数据 强制 变 成 某 种 形状 ， 你 会 发 现 使 用 起 某 些 模型 来 更 轻松 。 一 个 简单 的 转换 通常 是 对 数据 应 用 一 个 数 
学 计算 函数 来 完成 


一 些 弟 用 的 典型 数据 转换 有 log、exp 和 sqrt。 有 毕 转 换 对 不 同类 型 的 倾斜 数据 有 较 好 的 效果 ， 但 并 不 能 保证 总 是 有 效 ， 所 以 
最 好 的 做 法 是 过 试 几 个 不 同 的 基本 转换， 判断 那些 转换 在 模型 的 上 下 文中 是 否 有 效 。 最 好 的 转换 总 是 最 简单 的 转换 ， 我 们 来 研究 
一 下 转换 的 工作 机 制 ， 并 看 看 哪些 转换 对 哪些 特定 类 型 的 数据 效果 最 好 。 


为 了 阐述 转换 的 概念 ， 我 们 首先 从 生成 一 个 对 数 分 布 开 始 ， 这 是 一 个 非 线 性 分 布 的 示例 。 参 见 在 下 面 图 表象 限 的 第 一 行 的 X 
的 柱状 图 和 正 态 Q-Q 图 。 这 两 种 图 表 的 数据 都 显示 了 很 高 的 倾斜 度 。 你 可 以 看 到 柱状 图 在 x 越 低 的 学 围 的 权重 越 重 ,而 Q-Q 图 显 
示 的 并 非 一 条 直线 。 所 以 我 们 需要 找 出 一 种 转换 ， 来 平滑 这 种 倾斜 。 我 们 将 要 使 用 Box-Cox 算 法 ， 它 会 决定 使 用 哪 种 算法 是 最 优 
的 。 


3.8.1 ”生成 测试 数据 
如 果 需 要 ， 安 装 下 面 的 包 : 


lnstall.packages ("car") 
lnstall.packages ("MASS") 


把 包 赋值 到 库 : 
library (car) 


library (MASS) 


生成 倾斜 的 数据 : 


set.seed(1010) 
< 一 EX DUO # exponential sample with parameter 1 
par (mfrow=c (2,3)) 


绘制 柱状 图 和 正人 态 概率 图 。par () 消 数 据 定 了 它们 是 在 下 个 部 分 所 示 的 图 表 的 第 一 行 的 一 部 分 。 


hist (x) 
qqgqnorm (x) 


# Normal probability plot for original variable 


3.8.2 ”Box-Cox 转 换 


现在 我 们 要 介绍 Box-Cox 转 换 (也 称 作 Power 转 换 ) 。 这 是 一 种 通用 转换 ， 可 以 搜索 最 优 的 算法 来 转换 你 的 数据 。 这 种 转换 
优化 一 个 叫 Lambda 的 指数 ， 它 随后 会 应 用 到 你 的 数据 。 其 做 法 是 迭代 所 有 -5 和 +5 之 间 的 措 数 ， 直 到 找到 一 个 最 好 的 指数 来 把 
你 的 数据 转换 成 正 态 分 布 。 


Doxcox (和 ~ 

正如 你 在 boxcox () 函数 产生 的 图 表 中 可 以 看 到 的 (第 三 个 图 表 ) ， 应 用 到 数据 的 最 优 的 指数 将 会 在 0 ~ 1 的 范围 之 内 。 
下 一 步 ， 应 用 power 函 数 。powerTransform () 遂 数 将 会 把 最 优 的 lambda 用 来 对 原始 数据 进行 计算 : 
p<-powerTransftorm(x) 
切换 各 个 控制 台 ， 你 会 看 到 数值 的 情况 ， 并 可 以 找到 p$lambda 的 值 。 控 制 台 显示 ， 这 个 值 是 0.287 363 8。 
plamda 
下 一 步 是 把 power 函 数 应 用 到 现存 数据 上 ， 并 把 结果 赋值 给 一 个 新 的 向 量 y: 
y<—bcPower (x,p$5lambda) # Box-Cox transformation 


新 数据 的 柱状 图 (下 图 中 y 的 柱状 图 ) 显示 ， 数 据 被 转换 成 了 正人 态 分 布 ， 而 用 来 度量 正人 态 性 的 Q-Q 图 显示 出 一 条 很 好 的 直 


conorm (y) 


# Normal probability plot for transformed variable 
hist(y) 


x 的 柱状 图 正 态 Q-Q 图 
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正 态 Q-Q y 的 柱状 图 
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3.9 ”变量 化 简 / 区 量 重 要 性 


变量 化 简 扩 术 使 你 可 以 精简 模型 需要 指定 的 变量 的 数目 。 我 们 将 要 讨论 可 以 实现 这 一 目的 三 种 不 同 万 法 : 
1) 主 成 分 分 析 法 (PCA) 。 
2) 全 部 子 集 回 归 。 


3) 变量 重要 性 。 


3.9.2 ”全 子 集 回归 


全 子 集 回归 是 另外 一 种 可 以 用 于 选择 变量 的 方法 。 它 的 工作 原理 是 每 次 为 1 个 变量 、2 个 变量 、3 个 变量 的 不 同 组 合 运行 单独 
的 回归 ， 直 到 所 有 的 变量 都 使 用 过 ， 或 者 直到 一 个 指定 的 停止 点 。 作 为 输出 的 一 部 分 ， 它 会 计算 每 一 组 变量 的 最 佳 模 型 。 这 样 你 
可 以 得 到 关于 单 变 量 、 双 变量 、 三 变量 等 的 最 佳 模 型 是 什么 的 想法 ， 从 而 可 以 用 一 些 绘图 和 输出 统计 把 一 个 数量 很 大 的 变量 清 
缩减 为 一 个 较 小 数量 的 清单 ， 仪 包含 重要 的 那些 变量 


在 这 个 示例 中 ， 我 们 将 使 用 leaps 包 中 的 regsubsets () 阔 数 来 决定 哪些 变量 在 预测 温度 中 有 重要 的 作用 : 


1InstallL.packades ("leaps") 
library (leaps) 

data (alrgquality) 
str(alrgquality) 


在 以 下 对 regsubsets () 水 数 的 调用 中 ， 我 们 指定 了 想 要 得 到 单 变量 、 双 变量 、 三 变量 的 各 种 组 合 下 各 目的 最 优 模 型 。 黑 
认 地 ， 该 函数 将 会 用 模型 中 所 有 的 变量 来 计算 最 优 模 型 。 在 这 个 冰 数 调用 中 ， 我 使 用 了 指定 最 大 值 来 演示 ， 因 为 我 想 要 这 个 算法 
在 处 理 的 变量 数目 达到 指定 数量 的 时 候 束 停止 运行 。 当 你 使 用 的 变量 数目 很 大 的 时 候 ， 这 一 点 会 变 得 很 重要 ， 你 可 不 想 把 宝贵 的 
内 存 都 耗 尽 吧 。 


out <-regsubsets(Temp ~ .,data=alrquality,nbest=1,nvmax = 99 ) 
在 输出 上 运行 summary () 函数 : 


summary (OU ) 


下 面 的 输出 显示 了 在 最 优 的 1 ~ 5 变量 模型 中 包含 的 变量 。 请 注意 ， 一 共 只 有 5 个 变量 ， 所 以 你 不 可 能 得 到 五 变量 以 上 的 模 


Subset selection object 
Call: regsubsets.formula(Temp ~ ., data = airquality, nbest = 1, nvmax = 
99) 
D Variables (and intercept) 
Forced in Forced out 


OZone F ALSE FALSE 
Solar.R F ALSE FALSE 
Wind FALSE FALSE 
Month FALSE FALSE 
Day FALSE FALSE 


1 subsets of each size up to 5 
Selection Algorithm: exhaustive 
Ozone Solar.R Wind Month Day 


1 ( 1 ) In 大 I I I I 1 
py ( 1 ) 大 1T IT 1 I | I T 
3 {1 n 大 1 I nm nm 大 nm Mn nn 
i 大 1 I 1 大 1 nm 大 
SU n 大 由 n 类 n 大 nm nm 


此 处 有 必要 解释 一 下 在 输出 表格 中 的 星 形 符号 的 侣 义 。 每 一 行 表示 模型 中 变量 的 数目 ， 而 在 各 列 中 的 “ 符号 表示 该 变量 是 组 
合 中 的 一 部 分 。 所 以 我 们 可 以 看 到 Ozone 是 最 优 的 单 变 量 预测 因子 ， 而 Ozone 和 Meonth 是 最 优 的 双 变 量 预测 因子 : 


模型 中 的 变量 


IDI 一 


如 果 想 要 查看 各 个 变量 组 合 的 调整 R-Square 值 ， 可 以 运行 下 面 这 一 行 命令 : 
summary (out) $adjr2 

下 面 是 输出 : 

[1] 0.4832625 0.5746686 0.5801736 0.5836452 0.5823619 


你 可 以 看 到 单 变量 模型 的 调整 R-Square 值 是 0.48， 双 变量 模型 的 调整 R-Square 值 是 0.57。 对 三 变量 以 上 的 模型 ， 看 上 去 好 
像 R-Square 值 的 增长 是 越 来 越 快 。 所 以 ， 看 起 来 Ozone 和 Month 的 双 变 量 模型 比较 适合 用 于 预测 空气 质量 。 


调整 R-Square 绘 区 


调整 R-Square 绘 图 也 有 助 于 模型 的 选择 。 下 面 的 图 表 中 ， 每 一 行 代表 一 个 单独 的 模型 ， 与 之 相交 的 各 列 则 是 所 有 的 变量 。 
plot 尔 数 显示 了 模型 中 的 R-Square 值 (如 y 轴 所 示 ) 是 如 何 随 看 变量 而 变化 的 。 


plot (out, scale = "adJjr2") 
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选择 最 优 的 模型 时 ， 注 意 看 哪些 变量 的 黑色 方块 最 靠近 y 轴 的 最 高 后 。 


在 我 们 的 示例 中 ， 用 这 个 方法 找到 的 是 四 变量 Ozone、Month、Solar.R 和 Day 的 模型 ， 而 在 前 面 我 们 提示 过 ， 双 变量 模型 
和 四 变量 模型 之 则 的 区 别 是 很 小 的 。 然 而 ， 你 可 以 看 人 到， 使 用 这 个 方法 是 如 何 把 你 的 变量 数 从 5 个 精简 到 2 个 ， 而 且 对 回归 模型 
的 负面 作用 最 小 。 


3.9.3 ”变量 重要 性 


为 了 实现 分 类 目标 ， 你 可 以 使 用 随机 森林 算法 来 判断 变量 重要 性 。 


下 面 这 个 示例 生成 了 一 个 仿真 的 抽样 ， 使 用 吸烟 和 家 族 病史 作为 天 键 因 子 来 决定 男性 患 心 脏 病 的 概率 : 


set.seed(1020) 
#construct a 50/50 sample of Males, and Females 
gender <- sample(c("M", "F"), 100, replace=T,prob=c(0.50,0.50)) 


#assign a higher probability of smoking to the Males (95%, WAY to high!) 
smokes <- lifelse (gender=="M", 
sample(c("N", "Y"), 100, replace=T,prob=c(0.05,0.95)), 
sample(c("N", "Y"), 100, replace=T, prob=c(0.45,0.55)) 


#assume they also have a 60% chance of family history of heart disease 
famijlyhistory <- ifelse (gender=="M", 


sample(c("N", "Y"), 100, replace=T,prob=c(0.40,0.60)) 
sample(c("N","Y"), 100, replace=T,prob=c(0.50,0.50)) 


/ 


HighChol <- sample(c("Y", "N"), 100, replace=T,prob=c(0.50,0.50)) 
heartdisease <- sample(c("Y","N"), 100, replace=T,prob=c(0.05,0.95)) 


#bind all of the variables together 


heart<-— 
as.data.frame (chind(smokes,HighChol,familyhistory,gender,heartdisease)) 


用 交叉 表 来 验证 一 些 生成 的 表格 : 
#row percentages for smoking by gender. Males who smoke came out little bit 


higher than the 95% 
prop.table (table (heart$gender,heart$smokes),1) 


下 面 所 示 是 输出 : 


> prop.table (table (heart$gender,heartssmokes),1) 


N Y 
F 0.425292593 0.937407407 
M 0.04347826 0.92652174 


请 看 以 下 的 代码 


#row percentage for family history by gender. Males with family history of 
heart disease came out also a bit higher than 60% 
prop.table (table (hearts$sgender,heartsfamilyhistory),1) 


尼 的 输出 如 下 所 示 : 


> prop.table (table (hearts$gender,hearts$familyhistory),1) 
N Y 
F QS3T103710 0Q.46296530 
M MBL3043 0 .586957 


最 后 ， 查 看 两 种 性 别 各 自 的 心脏 病 发 病 率 : 


> Prop .table(table (hearts$gender,heartsheartdisease),1) 
N 工 
F QQ. 902902960 .03103F04 
ML 2 GZ 


现在 我 们 可 以 运行 变量 影响 力 绘图 了 。 下 面 的 图 表 显 示 了 高 胆固醇 和 家 族 病史 是 最 重要 的 两 个 变量 : 


requlire (randomF orest) 


fit <—- randomForest (factor (heartdisease)~., data=heart,ntree=1000) 
(VI_F <—- importance (fit)) 
varImpPlot (fit,type=2,main="Random Forest Variable Importance Plot - Heart 


Disease Simulation") 


Random Forest Variable 
Importance Plot - Heart Disease Simulation 


familyhistory 


0.2 


MeanDecreaseGini 





这 个 方法 的 缺点 是 ， 它 对 各 个 变量 是 分 别处 理 的 ， 并 不 考虑 任何 两 个 变量 之 间 的 相关 性 。 


3.10 ”参考 资料 


Hospital Inpatient Discharges (SPARCS De-ldentified): 2012. (n.d.). Retrieved from nttps://he 
alth.data.ny.gov/Health/Hospital-Inpatient-Discharges-SPARCS-De-Identified/u 


4ud-w95t. 


3.11 ”本 童 小 结 


在 本 章 中 ， 我 们 学 习 了 所 有 关于 获取 数据 、 为 分 析 做 准备 的 方法 ， 以 便 你 能 够 开始 运行 模型 。 从 输入 原始 格式 的 外 部 数据 开 
台 ， 我 们 还 了 解 到 有 若干 种 可 以 实现 这 些 方 法 的 途径 。 你 还 学 习 了 如 何 生 成 自己 的 数据 ， 以 及 两 种 不 同 的 连接 或 者 融合 数据 的 方 
法 : 一 种 是 使 用 SQL， 另 一 种 是 使 用 dplyr 销 数 。 


然后 我 们 继续 讲解 了 在 数据 输入 之 后 ， 有 时候 需 要 做 的 一 些 基本 的 数据 清理 和 数据 探索 技术 ， 例 如 标准 化 和 转 置 数 据 ， 改 变 
变量 类 型 ,创建 虚 拟 变量 ,分 箱 ， 以 及 清除 随机 数据 。 现 在 你 已 经 了 解 了 使 用 哪些 R 浮 数 可 以 对 数据 内 容 做 初步 的 浏览 ， 包 括 数 
据 的 结构 。 


接 下 来 我 们 讲解 了 分 析 缺 失 数据 和 异 弟 值 这 两 个 重要 概念 ， 以 及 如 何 处 理 它 们 。 

我 们 展示 了 几 种 方法 来 把 变量 数目 简化 到 一 个 可 管理 的 水 平 ， 使 用 的 扩 术 包括 主 成 分 分 析 和 全 子 集 回归 。 
最 后 ,我们 学 习 了 使 用 随机 森林 算法 识别 模型 中 最 重要 的 若干 个 变量 。 

以 上 就 是 数据 准备 的 部 分 ， 我们 对 那些 可 以 用 来 为 建 模 准 备 数 据 的 方法 做 了 浮 光 近 影 的 介绍 。 


在 下 一 章 里 ,我们 将 会 介绍 天 于 随机 森林 的 更 多 细节 ， 还 有 回归 、 决 策 树 、SVM 和 其 他 一 些 知 识 ， 为 你 打造 一 个 基础 算法 
的 坚实 基础 ， 使 你 能 够 使 用 它们 来 建立 你 目 己 的 核心 模型 。 


第 4 章 ”回归 算法 导论 


不 是 无 知 造成 了 这 么 多 的 麻烦 ; 而 是 人 们 知道 了 太 多 根本 不 是 这 么 回 事 的 事 。 





Billings 


预测 分 析 技 术 的 数量 似乎 每 一 天 都 在 增加 。 人 们 一 直 在 争论 我 们 是 否 需 要 更 好 的 算法 ， 或 者 是 否 需 要 更 多 、 更 好 的 数据 来 攻 
殉 某 个 预测 分 析 问 题 。 

不 管 怎样 ， 了 解 所 有 可 用 算法 的 最 新 情况 以 供 自己 任意 使 用 总 是 好 的 。 同 样 重要 的 是 ， 通 过 三 四 种 常用 预测 分 析 算 法 来 提高 
你 的 近 能 ， 这 些 算法 足以 解决 你 可 能 会 遇 到 的 90% 的 问题 ， 还 要 理解 透彻 在 什么 情况 下 合理 使 用 算法 。 

本 书 通过 两 章 内 容 介绍 4 种 基本 算法 ， 这 4 种 基本 算法 涵 兰 了 许多 你 可 能 遇 到 的 典型 的 业务 情况 ， 本 章 残 是 其 中 第 一 章 。 事 


实 上 ， 对 于 多 数 数据 科学 调查 报告 ， 投 票 分 析 人 员 通 弟 会 把 这 些 扩 术 包 合 在 每 个 数据 科学 家 都 应 该 知道 的 顶尖 近 术 中 ， 而 在 这 些 
近 术 中 ， 我 们 将 在 本 章 详细 讨论 回归 算法 ， 剩 下 的 3 种 核心 算法 会 在 之 后 的 章节 中 讨论 。 我 们 先 来 介绍 有 哪 4 种 核心 算法 : 


: 回归 技术 是 解决 问题 的 标准 参数 方法 ， 它 把 一 个 系数 或 权重 分 配给 每 一 个 自 变 量 。 这 些 变量 通过 线性 函数 与 结果 变量 关联 


起 来 。 
` 决策 树 是 一 类 重要 的 算法 ， 当 变量 的 关系 可 能 不 再 是 线性 关系 时 ， 决 策 树 可 以 作为 回归 技术 的 一 种 备 选 方法 。 
` 聚 类 分 析 也 被 认为 是 无 监督 学 习 的 一 种 形式 ， 本 质 上 更 具有 探索 性 ， 但 不 一 定 具 有 预测 性 。 


-在 分 析 的 对 象 是 高 维 数据 的 情况 下 ， 支 持 向 量 机 会 非常 有 效 。 当 数据 中 出 现 大 批 的 变量 时 ， 高 维 数据 开始 发 挥 作用 ， 并 且 
你 得 选择 在 模型 中 使 用 全 部 或 大 部 分 的 变量 ， 而 不 必 先 应 用 东 种 数据 压缩 技术 。 当 你 以 原始 形式 对 一 些 实时 数据 应 用 进行 分 析 


时 ， 第 第 会 出 现 分 析 模 型 即刻 需要 再 次 应 用 的 情况 


4.1 ”监督 学 习 模型 和 无 星 督 学习 模 型 


我 们 已 经 讨论 了 目标 变量 ( 因 变 量 ) 和 目 变 量 /特征 的 概念 。 特 征 (或 自 变量 ) 用 于 摘 述 和 目标 变量 的 关系， 或 者 用 于 拍 述 
预测 目标 变量 值 的 关系 。 定 义 自 变量 和 因 变 量 之 后 ， 再 生成 模型 。 从 数据 中 学 习 生 成 的 模型 的 其 中 一 种 分 类 方法 是 ， 将 其 分 为 监 
督学 习 模 型 和 无 监督 学 习 模 型 。 


4.1.1 ”上 监督 学 习 模 型 


当 目 标 变 量 的 可 能 值 被 指定 并 标记 时 ， 模 型 被 视 为 监督 模型 ， 也 就 是 说 ， 我 们 知 站 我 们 要 预测 什么 ， 并 且 目 标 是 找到 最 适合 
的 预测 模型 来 预测 结 


举 个 例子 ， 如 果 我 们 正在 预测 产品 的 支持 率 ， 我 们 知道 我 们 预测 的 是 什么 (产品 的 支持 率 ) ， 并 且 通 常 也 知道 可 能 的 结果 区 
围 。 它 可 以 是 0 ~ 100 的 百分比 ， 也 可 以 是 一 些 分 类 ， 比 如 高 支持 率 或 者 低 支 持 率 


当 预 测 的 问题 是 可 被 监督 的 类 型 时 ， 选 择 哪 种 模型 通 弟 取决 于 目标 变量 的 类 型 ， 也 就 是 名 ,目标 变量 是 连续 类 型 还 是 分 类 类 
型 。 它 也 可 以 取决 于 某 些 因素 ， 如 偏差 /方差 (在 第 2 草 中 讨论 ) 以 及 我 们 想 要 对 模型 做 的 各 种 假设 。 回 归 算 法 和 决策 树 算法 被 认 
是 监督 算法 ， 因 为 在 预测 模型 开始 之 前 ,指定 了 目标 变量 或 者 目标 类 ( 融 决 策 树 来 况 ) 。 


无 监督 的 预测 问题 本 质 上 更 具 探 索性 。 在 无 屿 督学 习 环 境 中 ， 不 会 指定 目标 变量 ， 甚 至 不 知道 变量 应 该 是 什么 。 通 党 是 给 数 
据 科学 家 一 组 属性 ， 然 后 要 求 他 们 提取 一 些 关 系 ， 或 者 友 现 一 些 从 数据 中 不 会 明显 看 出 的 新 属性 。 


例如 ， 在 探索 性 客户 分 析 过 程 中 ， 你 可 以 查看 客户 的 不 同属 性 ， 如 年 龄 、 性 别 和 销售 历史 ， 这 些 属性 可 以 引导 你 创建 新 的 变 
量 (过 去 不 存在 的 ) ， 从 而 将 每 个 客户 摘 述 为 最 佳 客户 、 优 质 客户 或 一 般 客 户 。 然 后 你 可 以 选择 一 个 合适 的 算法 来 解决 该 问题 ， 
可 能 是 一 个 聚 类 算法 、 一 棵 决策 树 或 者 一 个 支持 向 量 机 。 


口 


另 一 个 例子 是 使 用 一 个 神经 网 络 算法 ， 配 合 一 些 金融 交易 数据 来 友 现 某 些 潜在 的 欺诈 或 异 单 。 


通 单 情况 下 ， 你 会 找到 一 个 无 监督 算法 (如 神经 网 络 算法 ) ， 对 应 到 无 监督 设置 (发现 欺诈 ) ， 但 并 非 总 是 这 样 。 或 许 你 会 
友 现 可 以 利用 传统 的 监督 技术 (如 回归 技术 ) 以 及 利用 诊断 后 的 工具 检查 误差 项 和 离 群 值 ， 找 到 完全 出 乎 意料 的 结果 。 这 可 能 把 
你 引 同 导致 重新 制定 分 析 问 题 的 其 他 探 系 。 


最 后 ， 监 督学 习 和 无 监督 学 习 经 常 案 密 合作 。 你 可 能 发 现 自 己 通过 无 监督 学 习 过 程 创 建 了 一 个 新 变量 ， 反 过 来 又 导致 将 这 个 
变量 作为 一 个 潜在 变量 ,集成 到 一 个 传统 的 号 督 算法 (如 决策 树 ) 中 。 


4.2 回归 技术 


回归 分 析 (被 认为 是 一 种 监督 学 习 算 法 ) 可 以 奶 溯 到 19 世 纪 早 期 ， 高 斯 (Gauss) 和 就 让 德 (Legendre) 利用 这 些 技术 来 
测量 行星 绕 太 阳 的 运动 轨迹 (https://en.wikipedia.org/wiki/Regression_analysis) 。 由 于 其 庞大 的 文献 基础 和 适应 各 种 问题 
的 能 力 ， 回 归 算 法 的 用 法 在 预测 分 析 界 仍然 很 有 优势 。 


当 目 标 变 量 是 连续 变量 时 ， 线 性 回归 是 基本 的 回归 技术 。 线 性 回归 建立 在 普通 最 小 二 乘法 的 概念 上 ， 模 型 的 消 数 形式 是 : 


= bo 十 Bi 十 Bb; dx12 + Da 十 乙 ; 


上 述 公 陈 表明 ， 绪 性 回归 模型 是 系 加 性 的 ， 也 残 是 况 ， 预 测 的 结果 是 通过 计算 所 有 目 变 量 的 交叉 积 值 来 计算 ， 然 后 添加 一 个 
截 距 (公式 的 第 一 项 ) 和 错误 项 (公式 的 最 后 一 项 ) 。 该 计算 针对 因 变 量 或 目标 变量 (y) 产生 了 预测 。 线 性 回归 线 通 过 普通 最 
小 二 乘法 (ordinary least squares，OLS) 进行 拟 合 ， 其 中 ， 回 归 线 上 的 观测 值 和 预测 距离 之 间 的 最 小 二 乘法 ( 误 医 项) 的 关 
别 最 小 。 使 用 平方 差 ， 而 不 是 实际 的 差异 ， 是 因为 我 们 真正 感 兴趣 的 是 差异 的 幅度 ， 而 不 是 差异 的 方向 。 对 结果 求 平 方 值 则 消除 
了 正 负 待 号。 误差 项 通 单 用 于 检验 预测 模型 产生 的 误差 。 


回归 技术 的 优势 


使 用 绪 性 回归 的 其 中 一 个 优点 是 ， 它 便于 解释 每 个 变量 的 线性 系数 。 具 体 来 况 ， 每 个 变量 在 回归 模型 中 的 斜率 (在 每 个 回归 
项 之 前 的 B) ， 将 显示 出 在 相应 的 目 变 量 中 每 个 单位 变化 预测 的 变化 ， 并 且 模 型 中 折 有 其 他 变量 保持 不 变 。 使 用 线性 蛋 型 有 相当 
大 的 灵活 性 ， 在 这 种 模型 中 ， 你 也 可 以 对 名 义 上 的 目 变 量 以 及 连续 变量 进行 建 模 ， 并 通过 变量 变换 和 人 交互， 将 一 定 程度 的 非 线性 
关系 并 入 到 其 中 。 线 性 回归 的 知识 主体 非常 氟 大 ， 并 且 很 大 程度 上 以 概率 论 为 基础 。 


虽然 正确 使 用 线性 回归 的 话 ， 它 可 以 非常 强大 ， 但 是 要 注意 有 些 线性 回归 的 主要 假设 : 


独立 性 : 观察 结果 互 不 相关 。 处 理 时 间 序 列 数据 时 ， 这 一 假设 常常 会 被 推翻 。 了 解 如 何 对 数据 取样 ， 将 有 助 于 理解 该 数据 
是 否 为 独立 数据 ， 以 及 该 数据 是 否 是 随机 抽样 。 


` 线性 : 自 变 量 和 因 变 量 之 间 存 在 线性 关系 。 也 可 能 存在 其 他 类 型 的 关系 ; 例如 ， 变 量 之 间 可 能 存在 曲线 关系 。 在 维基 百科 
参考 的 第 一 行 的 第 二 节 中 ， 可 以 找到 用 于 分 析 安 斯 科 姆 (Anscombe) 的 四 组 数据 是 如 何 发 生 的 。 


“ 正 态 性 : 回归 模型 中 的 误差 项 是 呈正 态 分 布 的 。 直 观 地 说 ， 通 常 正 态 分 布 的 误差 项 是 有 作用 的 ， 因 为 它们 上 暗示 着 正确 的 变 
下 


量 在 你 的 模型 中 都 已 存在 ， 也 就 没有 什么 还 需要 你 解释 的 。 你 只 剩 下 一 个 随机 误差 。 


: 误差 的 相等 方差 : 误差 项 也 有 第 数 方差 。 例 如 ， 不 相等 的 方差 意味 着 预测 值 的 误差 随 肴 自 变 量 值 变 大 或 变 小 而 增加 或 减 


如 果 其 中 任何 一 个 假设 都 被 推翻 ， 你 可 能 不 应 该 使 用 线性 回归 。 我 说 得 比较 严重 ， 因 为 任何 模型 对 这 些 假设 都 有 一 定 程 度 的 
容忍 ， 还 有 一 些 统计 测试 可 以 用 于 衡量 某 些 假设 的 容忍 程度 。 然 而， 如 果 你 的 数据 符合 线性 回归 的 假设 ， 预 测 效 果 束 相当 不 错 。 


4.3” 厂 义 线性 模型 


广义 线性 模型 (generalized linear model，GLM) 是 指 一 个 较 大 的 预测 技术 框架 ,包括 线性 回归 、 风 辑 回 归 (用 于 预测 二 
进 制 结果 ) 以 及 泪 松 回归 (用 于 预测 计数 ) 。 它 们 是 线性 回归 技术 的 一 种 广义 化 ， 允 许 你 处 理 具 有 非 正常 误差 项 的 其 他 分 布 。 广 
义 绪 性 模型 GLM 可 以 利用 glm 包 并 通过 Ri 语言 来 实现 ， 比 如 你 提供 链接 阔 数 据 定 了 正在 建 模 的 分 布 情况 。 使 用 标准 语法 ， 则 一 个 
包 中 不 同类 型 的 模型 更 容易 一 起 协同 合作 。 


利用 广义 线性 模型 GLM 的 线性 回归 


在 第 1 章 中 ， 最 初 使 用 的 例子 是 ， 基 于 Im 包 ， 使 用 女性 体重 来 预测 女性 身高 。 我 们 也 可 以 使 用 glm 包 ， 指 定 
family=Gaussian 来 起 到 关联 作用 : 


lm output <—- lm(womensheight ~ womensweight) 
或 者 : 
glm_output <—- glm(womensheight ~ womensweight, family=gaussian,) 


4.4 逻辑 回归 


一 个 非常 普遍 的 GLM 应 用 可 以 通过 逻辑 回归 来 实现 。 也 殊 是 说 ， 当 目标 变量 是 一 个 二 进 制 值 时 ， 使 用 的 回归 类 型 只 能 是 两 
个 值 。 这 两 个 二 进 制 值 通 单 采 用 这 种 形式 : 


` 发 生 了 某 件 事 (二进制 值 为 1) 
" 某 件 事 没 有 发 生 (二 进 制 值 为 0) 
这 两 个 值 通常 根据 行业 类 型 而 有 所 不 同 。 以 下 是 在 不 同行 业 中 一 些 二 进 制 啊 应 的 例子 : 
-市场 营销 : 顾客 对 某 个 特定 报价 是 否 做 出 响应 ? 
医疗 : 是 否 是 一 种 治疗 疾病 的 特效 药物 ? 
- 财务 : 某 个 具体 的 交易 策略 是 否 会 带 来 利润 ? 
: 网 络 追 踪 : 顾客 是 否 会 在 结账 时 放弃 准备 购买 的 商品 ? 


几乎 每 一 个 行业 都 会 有 一 些 能 够 用 二 进 制 结果 来 表述 的 问题 。 事 实 上 ， 某 些 情 况 下 ， 标 准 线性 回归 问题 经 常 被 改写 ， 因 此 不 
再 是 预测 对 应 目标 值 的 特定 值 ， 而 是 将 问题 转化 为 二 进 制 问题 。 通 单 这 样 做 是 为 了 利用 逻辑 回归 的 某 举 宽松 假设 。 


你 可 能 会 问 ，“ 为 什么 不 使 用 正则 线性 回归 来 解决 这 些 问 题 呢 ? ”不 笠 的 是 ， 由 于 多 种 原因 ， 当 你 有 一 个 二 进 制 结果 变量 
时 ， 续 性 回归 本 身 不 可 行 。 以 下 是 两 个 重要 的 原因 : 


首先 ， 如 果 使 用 正则 回归 ， 结 果 将 超出 0 和 1 的 界限 范围 ， 因 为 两 个 方向 间 连 线 的 两 端 是 无 限 延 伸 的 。 


其次， 正则 回归 的 其 中 一 个 要 求 是 ， 误 差 项 须 是 正 态 分 布 的 ， 并 且 在 逻辑 回归 的 情况 下 并 不 成 立 。 误 差 项 和 条 件 伯 努 利 分 
布 有 关 。 


. 不 过 ， 届 辑 回 归 确 实 包含 了 回归 模型 的 很 多 特性 : 
. 逻辑 回归 是 一 个 低 方差 的 算法 ， 因 此 非常 容易 实施 和 解释 ， 并 且 没 有 某 些 其 他 算法 因为 过 拟 合 而 带 来 的 那么 多 问题 。 


. 记 辑 回归 具有 良好 的 特征 选择 性 能 、 增 加 转换 变量 的 性 能 以 及 和 线性 回归 共享 交互 的 性 能 。 然 而 ， 逻 辑 回归 预测 的 内 容 
(事件 发 生 的 可 能 性 ) 恰恰 又 将 其 与 标准 回归 技术 区 分 开 来 。 


4.4.1 比率 


线性 回归 会 预测 因 变量 的 实际 输出 结果 ， 而 逻辑 回归 并 不 能 预测 实际 输出 结果 或 实际 事件 。 人 远 辑 回归 预测 的 是 某 一 事件 友 生 
的 可 能 性 或 比率 。 这 有 些许 不 同 ， 因 为 是 与 事件 友 生 的 概率 有 关 (而 不 是 事件 本 身 的 预测 ) 。 


比率 是 事件 A 友 生 的 概率 除 以 事件 A 没 有 友 生 的 概率 的 比值 。 在 函数 方程 中 ， 该 比值 表示 为 一 个 目 然 对 数 : 


一 a + BX, + B,AX, + .BA 





| 


In 


4.4.2 ”逻辑 回归 系数 


从 逻辑 回归 返回 的 系数 是 标准 化 的 ， 它 们 测算 的 是 比率 日 志 中 目 变 量 的 单位 变化 的 影响 ， 而 不 是 变量 本 身 的 变化 。 


要 确定 这 些 系数 ， 该 算法 使 用 的 不 是 线性 回归 中 的 OLS 万 法 ， 而 是 通过 使 用 一 种 叫 作 最 大 似 然 估计 (maximum likelihood 
estimation) 的 方法 来 确定 。 入 单 地 癌 ， 这 意味 着 算法 从 系数 的 任意 值 开始 ， 进 而 提出 一 个 初始 模型 。 然 后 该 算法 测量 出 模型 中 
的 误差 ， 并 把 系数 调整 为 新 的 值 ， 这 样 ， 下 一 个 模型 的 结果 区 能 更 好 地 适应 包 合 在 数 据 中 的 值 。 该 万 法 需要 迭代 执行 ， 直 到 误 关 


收敛 到 一 个 最 优 解 。 


由 于 一 个 线性 模型 的 预测 是 通过 从 模型 中 求 出 的 交叉 乘积 和 截 距 来 确定 的 。 所 以 该 结果 好 比 0.5% 的 截止 值 ， 用 于 一 个 决策 
规则 ， 将 事件 划分 到 两 个 目标 变量 值 其 中 的 一 个 。 


4.4.3 示例 : 在 医疗 中 使 用 逻辑 回归 来 预测 疼痛 国 值 


该 例子 从 一 项 研究 中 获得 数据 ， 该 研究 预测 了 一 个 受 试 者 在 接受 各 种 治疗 后 是 否 经 历 了 疼痛 减轻 的 情况 。 已 经 存在 的 疼痛 表 


中 Gender 列 、Age 列 和 Duration 列 也 用 作 模 型 中 的 自 变 量 。 结 果 变 量 为 Pain， 编 码 为 1 代表 疼痛 ， 编 码 为 0 代表 没有 疼痛 。 
Treatment 浊 指 的 是 2 种 治疗 方法 中 的 其 中 一 种 (A 治疗 方法 或 B 治 疗 方 法 ) ， 以 及 一 个 控制 组 (P) 。 


读 取 数据 


我 们 将 使 用 read.table 附 市 text= 选 项 来 读 取 内 联 原 始 数 据 ， 也 殊 是 说 ， 不 必 先 创建 一 个 外 部 文件 。 对 于 分 析 你 从 其 他 源 复 
制 、 粘 贴 的 数据 ， 访 万 法 是 有 用 的 ， 例 如 以 下 表格 : 


df <—- read.table(text = "Treatment Gender Age Duration Pain 
P F 68 由 0 
P M 66 26 1 
A F 2 1 0 
A M a LL + 
B FE 66 1 0 
A F 64 Lf 0 
P M 70 1 1 
A F 64 30 0 
B F 78 1 0 
B M 75 30 1 
A M 70 I 0 
B M 70 1 0 
P M 78 12 1 
P M 66 4 1 
A M 78 | 1 
Pp F 72 | 0 
B F 65 7 0 
B M 6 7 17 1 
P F 6 7/ 1 . 
A F 74 1 0 
B M 74 16 0 
B FE 6 7 pA 0 
B F 72 50 0 
A F 63 | 0 
A M 62 42 0 
已 M 74 4 0 
B M 66 上 0 
A M 70 忆 妆 0 
P M B33 1 由 
P M 34 29 1 
A F 69 12 0 
B M 6 7 FA 0 
B M A | 1 
P F 65 29 0 
B M 全 a 1 


P F' 70 13 1 
Pp FE 68 27 1 
B M 70 a 0 
A M 67 10 0 
B M 80 21 1 
P F 67 30 0 
B F Ty 16 0 
B FE 76 9 1 
A FE 69 18 1 
P F 64 1 1 
A F 72 2 0 
B M D9 29 0 
A M 69 1 0 
B F 69 42 0 
P F 79 和 1 
B FE 65 14 0 
A M 16 2 上 
B F 69 24 0 
Pp M 60 26 | 
A F' 67 1 0 
A M 了 号 6 1 
P M 68 11 1 
A M 65 15 0 
P F 区 11 1 
A F 69 3 0',header = 


TRUE) 


获得 一 些 基 本 统计 


现在 已 经 得 到 了 数据 ， 切 换 到 控制 台 窗 口 。 在 控制 台 提示 符 下 ， 输 入 命令 table (df$Pain) 。 该 函数 会 提供 给 你 天 于 有 经 历 
疼痛 和 没有 经 历 疼痛 的 病人 数量 的 初步 统计 数据 : 


> table (dfs$Pain) 
结果 将 出 现在 控制 人 台 窗 口中 : 
0O 1 
Es 
prop.table 函 数 可 以 提供 经 历 疼痛 和 没有 经 历 疼 痛 的 人 数 的 百分比 : 
> prop.table (table (df$Pain)) 


输出 如 下 : 


0 . 
DD0533333 U 4L066614 


保存 数据 


在 开始 做 其 他 事 之 前 ,我 们 将 该 数据 帧 保存 在 磁盘 ， 因 为 在 本 章 中 还 会 使 用 到 它 。 保 存 文件 之 前 ， 请 确保 将 工作 目录 设置 为 


数据 目录 : 


setwd("C:/PracticalPredictiveAnalytics/Data") 
save (df, file="pain_raw.Rda") 


4.4.5 ”检验 残 才 项 


我 在 看 到 系数 之 后 会 做 的 第 一 件 事 就 是 查看 残 差 项 。 可 以 通过 residuals () 函数 看 到 所 有 残 差 项 : 


residuals (PainGLM, type="deviance") # residuals 


许多 好 的 模型 的 误差 项 几乎 为 0， 并 且 在 所 有 级 别 上 ， 残 差 项 的 方差 大 致 相同 。 该 模型 的 残 差 项 的 偏差 列 在 之 前 展示 的 小 节 
部 分 。 我 们 可 以 看 到 偏差 分 布 均 衡 ， 因 为 最 小 和 最 大 的 绝对 值 近似 相等 ，1Q (第 一 个 四 分 位 数 ) 和 3Q (第 三 个 四 分 位 数 ) 也 一 
样 。 

Deviance Residuals: 


Min 10 Median 30 Max 
2.1638 -0.5904 -0.1952 sl es 


如 果 我 们 想 看 平均 数 ， 可 以 在 residuals () 函数 中 使 用 mean () 函数 。 注 意 -0.04 的 平均 值 大 于 -0.195 的 中 间 值 。 这 意味 
着 误差 项 有 轻微 的 正 偏 态 。 


mean (residuals (PainGLM, type="deviance"),) 

在 控制 台中 出 现 的 结果 如 下 : 

[11| -0.04269U42 

误差 项 分 布 匿 

分 布 图 在 展示 误差 项 方面 非 音 有用， 并 且 通 党 在 诊断 一 个 模型 的 问题 时 是 非 单 关键 的 : 


plot (residuals (PainGLM, type="deviance"),) 


输出 的 分 布 图 给 出 了 一 个 灵活 分 布 的 误差 项 的 好 例子 。 在 指数 学 围 内 ， 误 差 项 看 上 去 分 散 企 0 元 石 ， 而 且 似 乎 没有 大 的 向 上 
或 向 下 的 延伸 趋势 ， 除 了 前 面 提 人 到 的 轻微 倾斜: 
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4.4.6 ”添加 变量 的 分 布 


你 可 以 通过 添加 变量 的 分 布 图 检查 特定 变量 的 影响 ， 同 时 保持 其 他 变量 的 系数 不 变 。 换 句 话说 ， 它 直观 地 描述 了 当 你 同 模型 
添加 变量 时 会 友 生 什么 。 它 也 可 以 看 作 一 种 检验 一 个 特定 变量 的 影响 效果 的 方法 ， 访 方法 通过 在 一 个 2 维 空间 上 投影 多 个 回归 线 
来 完成 。 你 可 以 用 该 万 法 检查 哪些 变量 相对 于 其 他 变量 具有 更 大 的 影响 。 


在 下 面 的 分 布 图 中 ， 我 们 将 使 用 car 包 的 avPlots () 函数 。 你 可 以 看 到 Age 年 龄 的 强 线性 效应 ，Duration 持 续 时 间 效 应 可 以 
忽略 不 计 。 这 也 反映 在 之 前 展示 的 人 逻辑 回归 模型 的 系数 和 特性 之 中 。 
library (car) 


library (car) 
avPlots (PainNGLM, id.method="mahal", id.n=2) 


回归 中 的 异常 值 
注意 ， 之 前 每 一 个 分 布 图 也 识别 了 数据 集中 极端 的 数据 点 ， 这 些 数据 点 可 能 对 回归 线 产 生 影 响 (通过 该 数据 绘制 的 线 ) 。 计 


算 值 在 分 布 图 中 用 黑体 表示 。 
例如 ， 在 所 有 之 前 的 分 布 图 中 ， 你 都 可 以 看 到 观测 值 26 补 认为 是 一 个 相对 于 其 他 协 变 量 而 言 的 异 单 值 。 


将 这 一 观察 结果 及 其 相 邻 的 值 输出 到 控制 台 。 通 过 检查 ， 你 可 以 看 到 它们 是 如 何 被 认定 为 异常 值 的， 两 个 变量 (Duration 
和 Treatment) 的 变化 一 目 了 然 地 和 其 他 观测 结果 不 同 : 


变量 添加 图 


年 龄 | 其 他 


疼痛 | 其 他 





时 光 | 其 他 
Lleol red Za | 


以 下 是 从 控制 台 输 出 的 结果 : 


Treatment Gender Age Duration Pain 


2 性 BR M 74 因 0 
2 M 66 19 0 
28 A M 70 < 0 
Sh A M 62 42 0 


4.4.7”p 信 及 其 效应 量 

在 输出 统计 上 ，p 值 一 直 是 进行 假设 检验 的 传统 方式 ， 但 是 最 近 几 年 ，p 值 受到 批评 ， 因 为 在 多 数 情 况 下 ， 这 不 是 恰当 的 措 
施 。 

如 今 的 数据 集 比 以 前 大 得 多 。 一 个 具有 大 量变 量 的 大 数据 集 可 以 表现 出 明显 的 p 值 ， 即 使 该 值 不 存在 。 

也 有 很 多 不 同 种 类 的 算法 可 以 产生 p 值 ， 这 是 一 个 好 机 会 ， 你 可 以 选择 能 给 你 想 要 的 p 值 的 算法 。 

分 析 师 可 以 根据 不 同 的 p 值 临界 水 平 来 强调 其 重要 性 。 


更 棘手 的 情况 是 你 可 以 选择 或 更 改 数据 来 影响 p 值 。 这 种 情况 很 微妙 ， 可 以 通过 非 随机 抽样 、 一 层 到 一 层 的 数据 转换 、 保 留 


缺失 值 或 者 删除 /输出 缺失 值 而 表现 出 来 。 所 有 由 建 模 者 在 应 用 统计 测试 之 前 做 的 决定 ， 都 会 影响 到 p 值 。 


不 得 不 说 的 是 ， 对 于 识别 可 能 的 重要 预测 因子 ， 以 及 了 解数 据 是 否 适 合 该 预测 模型 ，p 值 还 是 很 有 用 的 。 但 是 p 值 应 该 被 当 
作 一 个 工具 来 看 ， 融 像 你 使 用 的 每 一 个 算法 ， 都 只 是 你 用 来 协助 揭示 真相 的 一 个 工具 而 已 。 我 们 已 经 论证 的 其 他 工具 (如 置信 区 
间 、 随 机 抽样 以 及 变量 影响 分 布 图 ) 应 该 连同 p 值 计算 使 用 ， 提 供 一 个 完整 的 数据 图 片 。 


这 是 一 个 来 目 美 国 统计 协会 (American Statistical Association) 有 关 p 值 用 法 的 重要 声明 (2016 年 美国 统计 协会 发 布 声 
明 ) : 


“ p 值 可 以 表明 数据 与 指定 统计 模型 是 如 何不 兼容 的 ; 

 p 值 不 会 测算 研究 假设 为 真 的 概率 ， 或 者 数据 是 随机 偶然 产生 的 概率 ; 

- 科学 结论 和 业务 或 政策 决定 不 应 该 只 根据 p 值 是 否 到 达 一 个 特定 的 阅 值 而 决定 ; 
` 正确 的 推断 需要 全 面 的 报告 和 相关 透明 性 ; 

` b 值 或 者 统计 显著 性 不 会 衡量 一 个 影响 的 大 小 或 者 一 个 结果 的 重要 性 ; 


就 其 本 身 而 言 ，p 值 不 提供 关于 模型 或 假说 的 一 个 良好 的 衡量 证 据 。 


4.4.8 “pp 全 及 其 影响 沁 围 
里 然 经 常 有 关于 小 样本 p 值 的 疑问 ， 但 是 使 用 大 样本 数据 同样 也 可 以 产生 糟糕 的 结果 ， 即 使 p 值 可 能 是 正确 的 ， 但 是 影响 / 变 
化 的 幅度 还 是 微乎其微 。 
举 个 例子 ， 你 正在 测算 彩票 中 每 1 000 000 美 元 或 1 000 001 美 元 中 奖 的 效果 。 
我 们 将 生成 两 个 概率 样本 : 
“ 义 包 含 100 万 个 观测 值 ， 平 均值 为 1 000 000; 
.了 包含 100 万 个 观测 值 ， 但 是 平均 值 为 1 000 001， 与 另 一 个 样本 的 平均 值 只 有 一 个 单位 的 差别 。 
生成 一 个 市 有 X 和 Y 的 数据 帧 ， 打 印 汇总 统计 : 
Set .SeedQ (1020) 


lottery <- Qata.frame ( 


cbind (x=rnorm(n=1000000,1000000,100),y=rnorm(1000000,1000001,100) ) 
) 


summary (lottery,) 


输出 显示 的 正 是 我 们 期 望 的 模拟 X 和 模拟 Y。 它 们 都 具有 相同 数量 的 观测 值 ， 但 平均 值 只 有 一 个 单位 之 帮 : 


Xx y 
Min. : 999503 Min. : 999513 
It Ot 99Y033 1st Qu.: 999934 
Median :1000000 Median :1000001 


Mean OQ Mean 5 OVOQDOL 
SE us T0000G 3 OU. L000D068 
Max. :10005206 Max. :1000489 


如 果 我 们 对 平均 值 之 间 的 差别 执行 一 个 统计 性 t-test，p 值 会 显示 一 个 基于 p 值 的 非常 显著 的 差别 。 但 是 如 果 只 针对 1 美元 的 
差额 : 


t.test (lottery$x, lotterys$y) 


控制 台 的 输出 如 下 : 
Welch Two Sample t-test 


data: lottery$x and lotteryS$y 
t = -7.4518, df = 2000000, p-value = 9.209e-14 
alternative hypothesis: true difference in means 1s not equal to 0 
95 percent confidence interval: 
-1 .3303374 -0.77162632 
sample estimates: 
mean of x mean of y 
999999.9 1000001.0 


现在 ,我 们 重复 这 个 模拟 ， 但 是 这 次 使 用 一 个 相对 较 小 的 n 值 来 运行 同一 段 代码 ， 也 就是 n=100 000: 


set.seed(1020) 

lottery <- data.framel 

cbhind(x=rnorm(n=100000,1000000,100),y=rnorm (n=100000,1000001,100) ) 
) 


summary (lottery) 


控制 全 的 输出 如 下 : 
从 Y 
M1in. le M1in. :YISIU 


1t Ol S09933 1st Ou.: 999934 
Median :1000000 Median :1000000 
Mean :1000000 Mean GUg. 
3rd Qu.:1000068 ST OD 二 马上 总 US 
Max. :1000446 Max. :1000450 


现在 ， 再 运行 一 遍 t-test， 注 意 ， 我 们 得 到 了 一 个 更 大 的 p 值 0.2492: 
七 .七 eSt (lotterysx, lotterysy) 


控制 全 的 输出 如 下 : 


Welch Two Sample t-test 


data: lottery$x and lotterysy 
t = -1.1522, df = 200000, p-value = 0.2492 
alternative hypothesis: true difference in means 1LIS not equal to 0 
95 percent confidence interval: 
“L209 UABbUT 35 
sample estimates: 
mean of x mean of Y 
1000000 1000001 


以 下 是 这 段 练 习 操 作 的 要 后。 


如 果 这 是 彩票 中 奖 的 金额 ， 大 多 数 人 不 会 在 意 他 们 是 赢得 了 1 000 000 美 元 还 是 1 000 001 美 元 (不管 样本 大 小 ) ， 所 以 起 
作用 的 是 效应 量 ， 也 就 是 在 本 例 中 两 个 平均 值 的 磊 额 (1 美元 ) 。 很 显然 ， 对 于 大 额 金钱 来 说 ，1 美 元 并 不 重要 ,但 重要 的 是 你 
需要 准确 知道 ， 在 你 的 分 析 工 作 中 变化 的 多 少 所 市 来 的 意义 。 


4.4.9 ”变量 选择 


在 有 大 量变 量 的 情况 下 ， 逐 步 回归 可 以 作为 变量 选择 的 方法， 你 需要 定义 一 个 起 点 ， 该 起 点 可 以 让 你 从 一 个 有 限 变量 集 开 始 
查看 。 不 过 ， 所 有 有 关于 p 值 的 注意 事项 也 都 需要 考虑 在 内 。 使 用 此 方法 只 是 查看 模型 测试 的 候选 变量 列表 。 使 用 逐步 回归 来 决 
定 最 终 的 模型 不 是 一 个 好 的 想法 ， 这 个 最 终 的 模型 会 产生 人 为 的 高 偏 结果 。 有 几 种 方法 可 以 用 来 确定 最 佳 变量 。 


不 过 ， 让 我 们 从 识别 PainGLM 模 型 (疼痛 广义 线性 模型 ) 的 潜在 变量 列表 开始 ， 该 模型 很 小 但 是 能 够 很 好 地 诠释 这 个 过 
程 。 在 下 面 的 例子 中 ，stepwise () 国 数 通过 逐步 回归 的 forward/backward 选 项 来 确定 最 大 的 AlC。 


变量 选择 过 程 从 每 次 添加 一 个 变量 开始 ， 然 后 实现 变量 交换 的 形式 ， 也 就 是 说 ， 考 虑 是 否 要 通过 删除 已 经 存在 于 模型 中 的 所 
有 变量 来 改进 AIC。 直 到 AlC 不 能 再 改进 ， 选 择 过 程 残 可 以 停止 了 。 


` 在 PainGLM 实 例 中 冰 述 了 该 算法 ， 列 出 了 所 有 的 步骤 ， 执 行 一 遍 这 些 步骤 来 决定 最 终 选 择 的 变量 。 从 初始 AIC 统 计量 为 
83.5 (只 截取 模型 ) 开始 。 将 所 有 变量 添加 到 模型 中 产生 值 为 73.48 的 AIC。 然 而 ，AIC 可 以 通过 删除 Dutration 持 续 时 间 来 改进 。 因 
此 ， 可 以 结束 于 一 个 AIC 值 为 58.77 的 Treatment、Age 和 Gender 模 型 ， 为 AIC 已 经 不 能 再 继续 改进 了 。 


lnstall.packages ("RcmdrMisc") 

library (RcmdrMisc) 

stepwise (PainGLM, direction='forward/backward', 
criterion='AIC') 


控制 台中 stepwise 函 数 的 输出 结果 如 下 : 


AIC 
480 
os 
849 
3 
886 


AIC 
044 
886 
480 
688 
S03 


AIC 


.7/067 


044 
036 
480 


Direction: forward/backward-— 
Criterion: AIC 
Start: AIC=83.5 
Pain ~ 1 

Df Deviance 
+ Treatment 2 671.480 73. 
+ Age 1 SaUobe Tis 
+ Gender 1 15.849 179. 
<none> 了 SU 
+ Durat1Lon 1 9 086 03 
Step: AIC=73.48 
Pain ~ Treatment 

Df Deviance 
+ Age 1 55.044 63. 
+ Gender 1 0508 01; 
<none> 671.480 73. 
+ Duratlion 1 66.688 74. 
—- Treatment 2 Gl SU Ba 
Step: AIC=63.04 
Pain ~ Treatment + Age 

Df Deviance 
+ Gender 1 48.767 58 
<none> 可 
+ Duration 1 Do .3b bo 
—- Age 1 GFasd60 3 
—- Treatment 2 US 
Step: AIC=D8 .177/ 
Pain ~ Treatment + Ade + Gender 

Df Deviance AIC 

<none> 号 是 So tb1 
+, Durat1ion 1 48.736 60.736 
— Gender 1 55.044 63.044 
— Age 1 Sy Bue GE 886 
—- Treatment 2 68.900 74.900 
Call: glm(formula = 


LOmi Les 


data = df) 
Coefficients: 

(Intercept,) Treatment [T.BI] 
Gender[T.MI| 

-20.8694 -0.5474 

1 23 
Degrees of Freedom: 59 Total (1 
Null Deviance: S| 33 
Residual Deviance: 48.77 TG: 


i 


Pain ~ Treatment + Age + Gender, 


Treatment [T .P| 


sl 


Null); 55 Residual 


4.4.10 ”交互 


我 们 已 经 看 出 回归 是 可 堵 加 的 ， 即 预测 多 数 是 通过 增加 独立 单 变量 和 系数 的 乘积 而 计算 得 来 。 然 而 通 弟 单个 变量 本 身 不 足以 
充分 预测 简单 回归 模型 中 的 结果 。 通 剃 来 说 ， 预 测 变 量 A 影 响 了 预测 变量 B， 可 以 改善 输出 结果 。 在 解释 使 用 某 些 变量 背后 的 原理 
万 面 ， 这 也 有 很 长 的 路 要 走 。 两 个 或 多 个 变量 相互 影响 的 万 式 称 为 交互 ， 使 用 模型 中 的 交互 可 以 产生 大 于 各 目 效 应 轧 和 的 效果 。 
通常 涉及 两 个 或 多 个 交互 的 变量 ,一 个 变量 影响 目 变 量 的 万 式 取决 于 其 他 变量 的 不 同 级 别 或 学 围 。 


在 此 例 中 ， 我 们 将 采用 原来 的 Pain 疼 痛 模 型 ， 并 确定 不 同 的 治疗 万 法 是 人 否 对 年 龄 有 不 同 的 作用 。 可 以 通过 使 用 “: ”分 隔 
符 (冒号 ) 在 模型 中 指定 交互 影响 。 如 果 我 们 也 想 包 合 目 变量 影响 以 及 交互 ， 我 们 将 使 用 “* ”分 隔 符 。 


站 先 ， 我 们 将 像 之 前 那样 建立 模型 ， 但 是 要 在 模型 中 指定 一 个 Age: Treatment 有 影响。 这 样 做 是 因为 我 们 已 经 知道 Age 年 龄 
和 治疗 Type 类 型 在 某 种 程度 上 可 以 独立 地 预测 出 Pain 疼 痛 的 结果 ， 不 过 我 们 有 兴趣 看 看 ， 如 果 知 道 参 与 者 的 Age 年 龄 以 及 他 们 
接受 的 治疗 类 型 ,是否 会 改善 模型 。 如 果 确 实 会 改善 ， 我 们 可 以 研究 省 理 各 种 年 龄 组 的 不 同治 疗 方 法 ， 从 而 影响 输出 变量 
(Pain 疼 痛 ) : 

install.packages ("effects") 

library (effects,) 

output <- glm(Pain ~ Treatment + Gender + Age + Duration + Age:Treatment 


;data=df, family="binomial") 
summary (output) 


控制 台中 summary 函 数 的 输出 结果 如 下 : 


glm(formula = Pain ~ Treatment + Gender + Ade + Duration + Age:Treatment, 


family = "binomial", data = df) 

Deviance Residuals: 

Min 10 Medlan 30 Max 
-2 2do -BD.38098 BO 0.44605 ra dL 
Coefficients: 

Estimate Std. Error z value Pr(>|z|) 

(Intercept) -39.420723 20.2716062 -1.944 0.0519 
TreatmentB = 0LT2876 3 GITn3 = ZH 了 
TreatmentpPp 38 .32060070 21 0 TS i OQ.0790 
GenderM 1 。 9576U5 QQ.87240.7 Zs 5 0.0248 * 
Age 0.524314 U283665 1 .848 0.0646 
DuUrat1on US 0.036643 0 9 0 .9226 
TreatmentB:Age 0 1005917 0.433846 32 0.8166 
TreatmentP:Age -0.504315 0.307248 一 1.641 0.1007 
Semi odege WW "ww" OW ww™ he “Ww ODo. w Ysd ”1 


(Dispersion parameter for binomial family taken to be 1) 


Null deviance: 
Residual deviance: 


AIC: 95/7/.928 


81 .503 
41 .928 


GT 9 
On 52 


Number of Fisher Scoring literations: 7 


注意 ， 在 出 现 的 输出 结果 中 ， 这 里 不 是 一 个 Treatment 治 疗 的 系数 ， 而 是 两 


个 分 


degrees of freedom 
degrees of freedom 


| 针对 TreatmentB 和 TreatmentpP 的 分 离 


系数 ， 以 及 它们 和 Age 年 龄 的 相互 作用 。 请 注意 ， 在 最 后 一 列 中 没有 一 个 新 的 交互 项 有 显著 的 代码 。 
交互 效应 分 布 图 : 交互 效应 可 以 用 effect () 了 水 数 的 分 布 图 来 展示 。 


plot (effect ("Treatment*Age", output, xlevels=list (age=0:99)), 
EI oke= Lit lat Gt el ssQUns eweOls mb SegqlelpadDoy ss ol wo m99r 395)}) 


正如 分 布 图 所 示 ，TreatmentP (安奈 剂 ) 和 Age 之 间 没 有 交互 ， 这 是 你 在 对 照 研究 中 所 期 望 的 。 这 些 分 布 图 也 表明 了 对 于 
其 他 两 种 治疗 ，Age 年 龄 和 Pain 疼 痛 之 间 的 关系 ， 不 过 这 里 没有 足够 的 显著 差异 (在 0.05 级 ) 来 证 明 可 以 将 此 作为 一 个 个 性 化 的 
因素 考虑 : 


治疗 * 年 龄 效 米 图 





4.4.11 ” 拟 合 优 度 统计 量 


拟 合 优 度 检验 确定 一 个 模型 拟 合 数据 的 程度 。 有 几 种 万 法 可 以 判断 数据 和 逻辑 回归 模型 的 拟 合 程度 : 
“ 数据 分 区 : 我 们 已 经 学 过 一 种 方法 ， 将 数据 划分 为 训练 数据 集 和 测试 数据 集 ， 并 测量 它们 产生 的 相似 结果 的 程度 。 第 2 章 


展示 了 该 方法 。 


- 单项 指标 : 另 一 种 方法 是 提出 一 个 定量 的 方法 来 衡量 自 变量 ， 从 0 到 1 表示 预测 因 变 量 的 能 力 ，0 意 味 着 没有 预测 能 力 ，1 意 
味 着 最 佳 预测 能 力 。 曲 线 下 面积 (Atea Under the Cutve，AUC) 和 R-squate 就 是 这 类 拟 合 优 度 检验 (Goodness of Fit，GOF) 的 例 
可 < 


* R-sdquate 是 一 种 评估 拟 合 优 度 的 各 用 方法 ， 它 粗略 地 测量 了 模型 中 总 变异 量 中 的 可 解释 变量 。 在 线性 回归 中 ， 它 首先 计算 
误差 项 平方 和 与 总 平方 和 的 比值 ， 然 后 减 去 1 的 结果 。 (决定 系数 ，Coefficient of Detetmination ) 





[Cs 












i 
[ot 


是 线性 模型 的 假设 而 来 的 ， 正 如 我 们 所 见 ， 逻 辑 


这 些 测量 中 包括 麦克 法 登 统 计 (McFadden 


: 最 有 趣 的 是 ， 逻 辑 回 归 没 有 R-square 统 计 。 因 为 R-square 是 基于 拟 合 的 模型 
回归 没有 做 过 这 类 假设 。 不 过 ， 伪 R-square 测 量 已 经 发 展 到 包含 相同 的 0-1 幅 度 。 
Statistic) 。 

麦克 法 登 统计 

麦克 法 登 统计 近似 计算 了 R-square 类 型 测量 ， 通 过 查看 完整 模型 的 对 数 似 然 比 (类似 于 先前 定义 的 OLS R-square 公 式 中 的 
误差 平方 和 ) ， 除 以 一 个 截 距 模 型 (intercept-only model) 的 对 数 似 然 (类 似 于 R-square 忌 平方 和 的 分 母 ) 。 近 似 于 在 截 距 
空 模型 (intercept-only null model) 基础 上 的 逻辑 模型 的 改 民 。 硫 玩法 登 统计 被 认为 是 一 个 伪 R-square， 因 为 麦克 法 登 统计 
试图 测量 同一 件 事 ， 并 且 产 生 类 似 于 R-square 的 结果 ， 在 0 ~ 1 范围 内 。 


以 下 是 麦克 法 登 方 程 ， 来 自 UCLA (加利福尼亚 大 学 洛杉矶 分 校 ) 的 数字 研究 和 教育 学 院 。 (常见 问题 : 什么 是 伪 R- 


加 In L( Mi ) 
In L(M. 


intercepl 


square? ) 





R =1 


在 以 下 代码 中 ，0.40 的 麦克 法 登 统计 表明 该 模型 具有 相当 不 错 的 拟 合 度 : 


install.packages ("pscl") 
library (pscl1l) 
PR2 (PainGLM) 


PR2 () 函数 在 控制 台 的 输出 如 下 : 


1 Ph ]lhNull G2 McFadden r2ML 
—24.3678589 -40.7515960 32.7674742 B40O2039x 0.4208099 
wt 
0 S660d233 
4.4.12 ”置信 区 | 间 和 Wald 统 计 





Wald 检 验 用 于 评估 模型 中 各 个 系数 的 统计 意义 ， 通 过 计算 回归 系数 平方 与 系数 标准 误差 平 万 的 比 来 计算 。 该 想法 检验 了 模 


型 中 目 变 量 的 系数 和 零 没 有 显著 差 寞 的 假设 。 


输出 显示 了 95% 的 置信 区 间 (下 限 为 2.5%， 上 限 为 97.5%) 。 给 出 的 两 个 区 间 ， 其 中 一 个 是 实际 模型 的 系数 ， 另 一 个 是 指 
数 系 数 。 我 们 可 以 再 次 看 到 ，0 包 含 在 Duration 持 续 时 间 范 围 里 ， 因 此 我 们 可 以 考虑 从 模型 中 删除 变量 : 


confint (output, level=0.95, type="Wald") 


confint () 国 数 在 控制 台 的 输出 如 下 : 


Estimate 2.D 各 9 学 exp (Estimate) 
(Intercept) 20D80202035 34s509617160 -6 6668863] 1.144518e-09 
Teatment[lT Bl] =0020852Z002 =2Z436339f60 .3U908232 5.904604e-01 
Treatment [T.P] 3.181689786 L19032495 501I054063 2.408742e+01 
Gender[T.M] 1 .832202124 总 6.247630e+00 
Age O262093311 ULL9SIDL Qed5Z27202 1.299648e+00 
Duration DSS 90.2L7L 0.8B0435 9.941584e-01 
3 车 TD 党 
(Intercept) 1 .029526e-15 1.272354e-03 
Treatment [T.B] 9.410090e-02 3.7104997e+00 
Treatment [T.P] 3.288150e+00 1.764530e+02 
Gender[T.MI]| 1 .312150e+00 2.971417126et+01 
Age 1.074606e+00 1.571818e+00 
Duration 9.319075e-01 1.060568e+00 


4.4.13 ”基本 回归 诊断 图 


分 布 图 至 天 重要 。 这 4 个 分 布 图 可 以 帮助 你 识别 出 与 回归 无 关 的 观察 结 
而 迭代 过 程 又 是 开 友 模型 过 程 中 的 一 部 


要 诊断 拟 合 度 以 及 任何 关于 回归 模型 的 潜在 问题 ， 
果 ， 并 且 可 以 逐个 观察 ， 看 看 它们 是 否 有 什么 特别 之 处 。 这 只 是 达 代 过 程 的 其 中 一 部 分 ， 
分 ， 这 个 过 程 本 身 并 不 意味 着 会 出 现 一 个 不 适合 的 模型 。 


生成 PainGLM 疼 痛 广 义 线性 模型 的 基本 分 布 图 。 请 注意 ， 我 们 将 这 4 个 分 布 图 表示 在 四 个 象限 中 。 


oldpar <- par (oma=c (0,0,3,0), mfrow=c (2,2)) 
plot (PainGLM) 


par (oldpar) 


4.4.14 分布 图 类 型 搞 述 
误差 项 与 拟 合 : 误差 项 与 拟 合 分 布 图 有 助 于 确定 误差 项 中 是 否 存在 任何 模式 。 理 想 情况 下 ， 模 式 (或 者 非 模式 ) 会 是 在 水 平 
线 周 围 的 误差 项 的 随机 散射 。 


如 果 有 任何 明显 的 模式 ， 那 么 再 次 审视 某 些 双 变 量 间 的 关系 或 者 偏 回 归 分 布 图 ， 尝 试 把 这 些 审视 过 的 区 域 和 原来 的 散 点 图 天 
联 上 ,会 是 一 个 好 主意 : 


号 
A 
史 
局 
Dy 
> 
计 


“ 正 态 概率 单位 分 布 图 : 该 分 布 图 将 显示 误差 项 
glm (疼痛 ~ 治疗 + 性 别 + 年 龄 + 持续 时 间 ) 


误 考 项 与 拟 合 度 下 态 Q-Q 图 


准 俩 差 旋 考 项 


Y 


标 


预测 值 理论 分 位 数 


杠杆 值 


规模 定位 


项 


交卷 


* 准 信 埠 误 差 项 


示 
i 住 Pearsen i 


标 





观测 值 杠杆 值 
“ 规模 定位 : 该 分 布 图 用 于 检查 等 方差 假设 。 如 果 分 布 图 显示 误差 项 在 预测 范围 内 均匀 分 布 ， 这 也 是 一 个 很 好 的 人 迹象 。 即 如 
何 检 查 等 方差 性 (同方 差 性 ) 假设 。 如 果 你 看 到 一 条 水 平 〈 红 色 ) 参考 线 ， 以 及 线 穷 边 随 机 等 距 的 点 ， 那 就 再 好 不 过 了 。 


“ 误差 项 与 杠杆 值 : 该 分 布 图 有 助 于 确定 哪些 异常 值 会 影响 回归 估 值 。 并 非 所 有 的 异常 值 都 会 影响 回归 ， 即 使 它们 远离 回归 
线 。 虚 线 之 外 的 异常 值 会 影响 回归 系数 ， 如 果 把 这 些 异 常 值 从 分 析 中 去 挤 ， 结 果 可 能 会 发 生变 化 。 

一 种 互动 游戏 : 猜测 误差 项 是 售 是 随机 的 

查看 诊断 分 布 图 时 ， 你 只 看 到 了 误差 项 的 一 种 分 布 可 能 。TeachingDemos 库 有 一 个 有 趣 的 互动 函数 名 为 vis.test， 会 对 从 进 


行 的 回归 中 获得 的 误差 项 提出 质疑 ， 访 阔 数 从 同一 个 回归 中 获得 另外 一 组 随机 生成 的 误差 项 。 牢 记 ， 因 为 误差 项 是 随机 的 ， 所 以 
该 检验 本 质 上 会 把 误 郑 随机 化 。 如 果 你 能 够 从 它 产 生 的 其 他 误差 项 中 九 碍 出 你 目 己 的 误差 项 ， 则 误差 项 检验 失败 ， 检 验 得 出 的 结 


论 (当然 有 一 个 p 值 ) 是 ， 实 际 上 误差 项 不 是 随机 的 ， 并 且 会 把 你 市 回 到 模型 绘制 面板 。 
为 了 进行 该 检验 并 参与 该 游戏 ， 需 要 运行 以 下 代码 : 


install.packages ("TeachingDemos™") 

library (TeachingDemos) 

set .seed(1) 

lf(interactive()) {vis.test (residuals (PainGLM, type="response"), vt.gqgqnorm, 
Nrow=4, ncol=4, npage=1).} 


在 以 下 模式 出 现 后 ， 点 击 你 认为 符合 正 态 概率 单位 分 布 图 的 模式 ， 即 之 前 所 列 第 1 行 第 2 列 的 分 布 图 : 
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所 击 你 的 判断 答案 后 ， 该 消 数 会 检验 你 是 否 匹 配 正确 以 及 此 概率 是 多 少 。 如 果 你 一 直 判 断 错 误 ， 则 会 减少 行 数 和 列 数 ， 直 到 
你 能 找到 匹配 的 正 态 概 率 单位 分 布 图 。 


4.4.15 ” 拟 合 优 度 : Hosmer-Lemeshow 检 验 

拟 合 优 度 检验 会 查看 预测 概率 子 群 ， 例 如 ， 概 率 荡 围 在 10 (10%) 的 概率 组 ， 并 且 测 量 响 应 变量 预测 是 否 和 偶然 预期 要 友 
生 的 预测 有 明显 的 不 同 。 

第 一 个 数据 有 它们 的 预测 概率 从 最 低 到 最 高 进行 分 组 ， 然 后 被 分 级 置 于 同样 大 小 的 组 中 。 


然后 使 用 卡 方 检验 对 每 一 个 分 级 组 的 预测 概率 和 它们 预期 的 概率 进行 比较 。 在 一 个 满意 的 模型 中 ， 预 测 应 该 优 于 大 多 数 分 级 
组 所 预期 的 概率 。 如 果 没 有 优 于 ， 则 有 疑问 的 组 将 在 预测 与 预期 分 布 图 中 显示 ， 并 且 你 可 以 返回 ,在 此 尝试 找 出 任何 潜在 的 模型 


问题 。 
基于 PainGLM 数 据 的 拟 合 优 度 示例 


在 以 下 示例 中 ， 我 们 将 在 PainGLM 数 据 集 中 运用 Hosmer-Lemeshow 检 验 。 我 们 会 通过 ResourceSelection 包 中 的 
hoslem.test () 函数 来 实施 Hosmer-Lemeshow 检 验 。 


为 了 设置 该 检验 ， 提 供 观 测 值 ， 并 且 把 拟 合 的 (预测 ) 值 作为 hoslem.test () 函数 的 一 部 分 


install.packages ("ResourceSelection") 
library (ResourceSelect1on) 
hoslem.test (PainGLMSy, fitted (PainGLM)) 


hoslem.test 阴 数 在 控制 谷 的 输出 如 下 : 


Hosmer and Lemeshow goodness of fit (GOF) test 


data: PainGLMS$Sy, fitted (PainGLM) 
X—-squared = 8.4981, df = 8, p-value = 0.3864 


从 p 值 统计 (0.38) 的 检验 表明 ， 没 有 拟 合 问 题 。 


以 下 的 分 布 图 表明 某 些 预测 概率 优 于 预期 概率 (在 性 能 上 ， 相 对 于 理想 直线 ， 某 些 分 级 组 比 预 期 的 要 好 ， 而 其 他 的 则 比 预期 
的 要 差 ) 。 


使 用 cbind () 立 数 ,我 们 可 以 看 到 分 组 的 、 预 期 的 以 及 观察 的 值 : 


cbind (hoslemS$observed,hoslem$sexpected) 


第 一 列 显示 每 一 个 概率 范围 定义 的 分 组 。 第 2 列 和 第 3 列 展示 了 每 一 个 分 组 的 观测 频率 和 预期 频率 : 


> Cbind(hos lem4observed ,hos lem4expected ) 


> YOY 
[0.0143,0.02] 

(0.02,0.0668] 
(0.0668,0.128] 


(0.128,0.246] 


(0.246,0.353] 
(0.353,0.502] 
(0.502 ,0.632j 
(0.632 ,0.807j 
《0.807 ,0.903j 
(0.903,0.998] 


EOPmNB WN wn 可 加 
=A- 


4.4.16 正则 化 


yhat0 
5 .8984765 
9.7762161 
5 .4894519 
4.9134095 
4.1805425 
3.4564716 
2.6816122 
1.5600375 
0.9008531 
0.1429292 


yhatl 
0.1015235 
0.2237839 
0.5105481 
1.0865905 
1.8194575 
2.5435284 
3.3183878 
4.4399625 
5.0991469 
5 .8570708 





在 某 尝 情况 下 ， 大 量 的 变量 会 产生 过 度 拟 合 的 模型 。 这 会 引起 一 个 偏差 模型 ， 其 中 有 的 变量 对 预测 的 影响 比 合理 预期 的 要 


NR 


处 理 此 间 题 的 其 中 一 个 方法 是 ， 选 择 原始 变量 的 子 集 。 我 们 展示 了 所 有 子 集 的 回归 ， 这 些 回归 只 考虑 用 其 中 少数 几 种 变量 来 
产生 最 终 模型 。 但 是 ， 在 某 毕 情况 下 ， 你 可 能 想 要 保留 模型 中 所 有 的 或 者 大 多 数 的 变量 。 例 如 ， 如 果 你 通过 过 去 的 研究 了 解 到 ， 


这 个 过 程 应 该 始 终 包 含 特 定 的 变量 ， 你 会 想 要 把 衣 变 量 保留 在 模型 中 ， 即 便 在 变量 饰 选 过 程 执行 后 ， 该 变量 可 能 会 被 和 饰 选 出 去 。 


回归 正则 化 是 一 种 减少 某 些 系数 ， 甚 至 将 某 些 系数 设置 为 0 的 方法 ， 这 样 做 可 以 减少 这 些 系 数 的 影响 。 虽 然 我 认为 ， 对 于 重 
要 的 变量 ， 通 过 减少 模型 来 简化 模型 始终 是 好 方法 ， 但 是 正则 化 确实 也 能 帮助 减少 多 重 共 线 性 (multicollinearity) ， 或 者 减少 
目 变量 之 间 的 相关 性 ， 还 有 一 些 我 们 已 经 讨论 过 其 主要 构成 的 其 他 技术 。 


如 果 选 择 正 则 化 的 方法 ， 可 以 有 许多 正则 化 的 选择 。 其 中 一 些 正 则 化 的 方法 有 上 岭 回 归 、LASSO 或 者 LARS。 


4.4.17 示例 : ElasticNet 


要 说 明 PainGLM 数 据 的 正则 化 ， 我 们 将 使 用 ElasticNet 正 则 化 算法 (包含 在 glImnet 包 内 ) ， 该 算法 结合 了 几 种 不 同 的 正则 


化 万 法 。 


通过 创建 一 些 虚拟 变量 开始 ， 使 用 我 们 之 前 利用 的 model.matrix () 函数 。 然 后 ， 将 Duration 变 量 合并 形成 一 个 新 的 矩 
阵 : 


dummy .vars <- model.matrix(df$Pain ~ QqQafSTreatment + dfS$Gender + dfS$Age + 
dfS$SDuration) [,-1] 
x <—- as.matrix (data.frame (df$Duration,dummy .vars)) 


head (x) 

输出 如 下 : 

df.Treatment.T.B. df.Treatment.T.P. df.Gender.T.M. df.Age df.Duration 
0 1 0 68 ll. 
2 0 1 1 66 26 
3 0 0 0 4 12 
图 0 0 ] 71 | 
1 0 0 66 4 甩 
6 0 0 0 64 J] 


接 下 来 ， 在 模型 上 执行 Lasso 正 则 化 (alpha=1) ， 使 用 x 矩 阵 作为 输入 并 设置 。 
Pain 作 为 目标 变量 。 注 意 ，glmnet 的 语法 类 似 于 我 们 较 早 使 用 的 gIm 立 数 : 
install.packages ("glmnet™") 
library (glmnet) 


options (scipen = 999) 
mod.result<-glmnet (x, y=as .factor (df$sPain),alpha=1, family='binomial') 


4.4.18 ”选择 一 个 正确 的 Lambda 


该 模型 将 输出 一 个 lambda (入 ) 的 区 间 (正则 化 参数 ) ， 会 缓和 不 同系 数 对 不 同 程度 的 影响 。 
一 张 mod.results 的 分 布 图 显示 了 lambda (入 ) 变化 时 系数 的 大 小 : 


plot (mod.result,xvar=" lambda™") 


lambda (入 ) 参数 控制 系数 的 收缩 总 量 。 注 意 ， 当 lambda (入 ) 变 大 时 ， 更 多 的 系数 会 收缩 到 0: 


系数 





Log Lambda 


如 果 输 出 一 些 结果 ， 你 将 看 到 每 个 ambda (入 ) 模型 中 包含 了 多 少 非 零 系数 ， 以 及 每 个 模型 的 百 分 偶 差 。 这 有 助 于 你 给 
己 的 模型 选择 一 个 合适 的 lambda (入 ) 值 : 


head (print (mod.result)),) 


lambda (入 ) 表 被 写 入 控制 从: 


Dt Dev Lambda 
[1,] 0 -0.0000000000000004904 0.2357 
[rx] 1 Uedan9e. W2148 
[3 4 eolSTUUUNUQOUUQUUa3 DU L931 
[4,] 2 0.0739900000000000002 0.1783 
[Bs 2 L000000UG0UG0YS V6025 
L6G] 有 
tail (print (mod.result)) 
DT Dev Lambda 
[56,] 50.4019 0.0014130 
[57,] 50.4019 0.0012870 
[906] DO.4020 DVL1LE3b 
[S99] 5 Usd4020 Dou0QL0G9Y 
LU VeaUzbd VUUUY p39 
[61,] SS 0.4020 0.0008874 
4.4.19 ”基于 Lambda 输 出 可 能 的 系数 
利用 一 些 lambda (入 ) 值 ， 你 可 以 输出 每 个 模型 不 同 的 系数 。 
这 也 将 帮助 你 选择 适合 模型 的 ambda (入 ) 值 : 
Coef (mod.result,s=0.1957000) # 4 of 5 coefficient are at 0, too much 
shrinkage 
coef (mod.result,s=0.0131800) # only 1 coefficient is set to 0 
coef (mod.result,s=0.0120100) # All coefficients are included 


coef (mod.result,s=0.01) 


通过 0.01 的 lambda (入 ) 将 使 用 所 有 的 变量 ， 所 以 让 我 们 通过 该 值 输出 系数 : 


> coef (mod.result,s=0.01) 
1 x 1 sparse Matrix of class “dgCMatrix" 


1 
(Intercept) 一 /1.51291008856023208208 
df .Durat1ion -0 DUO00V62546 
df.TreatmentB -0.33638216397784859168 
df .TreatmentP 2.82134076268210698402 
df .GenderM I 
df .Ade 0.22139548722788335300 


df .Duration.1 


比较 正则 化 的 系数 和 原 gIm 系 数 ， 可 以 观察 到 系数 的 幅度 有 所 减 小 。 作 为 练习 ， 尝 试用 不 同 的 lambda (入 ) 值 检 验 试验 ， 观 
察 系数 是 如 何 变 化 的 : 


Coeffijcients: 
Estimate Std. Error z value Pr(>|z|) 


(Intercept) -20.5388282 让 
TreatmentB ve DISD Udbs DoDroYa 
TreatmentP GI Le Sly YUL BR 
GenderM dW OE LA 区 
Ade Us 262U93 四 
Duration < 有 


4.5” ”本草 小 结 


在 本 章 中 ， 我 们 从 讨论 监督 和 无 鸣 督 学 习 开始 ， 并 强调 了 纯 预 测 和 探索 性 分 析 之 间 的 区 别 。 接 着 我 们 引入 了 第 一 个 核心 算法 
(一 般 线性 模型 ) ， 该 算法 在 预测 分 析 领 域 很 重要 。 然 后 ， 我 们 讨论 了 各 种 回归 算法 ， 以 及 它们 的 优 缺 操 ， 值 得 注意 的 是 ， 回 归 
是 一 种 极其 灵活 并 且 研 究 充 分 的 基于 统计 的 建 模 工 具 。 我 们 还 利用 疼痛 国 值 的 研究 展示 了 逻辑 回归 和 正则 化 回归 的 例子 ， 并 讨论 
了 回归 中 一 些 重要 的 概念 ， 如 相互 作用 、p 信 以 及 影响 沁 围 。 


在 下 一 章 中 ， 我 们 将 通过 讨论 另外 3 种 算法 ， 即 决策 树 、 聚 类 和 支持 向 量 机 ， 继 续 讨 论 有 关 核 心 预测 分 析 的 算法 。 


第 5 草 ”决策 树 、 聚 类 和 SVM 导论 


我 的 兴趣 在 未 来 ， 因 为 我 将 在 那里 度 过 余生 。 


一 一 Chatles F.Kettering 


5.1 ”决策 树 算 ; 太 
决策 树 是 一 个 很 好 的 预测 模型 ， 具 有 很 多 优势 。 它 拥有 的 可 解释 性 、 变 量 选择 、 变 量 交互 以 及 选择 决策 本 复杂 程度 的 灵活 
性 ， 都 可 以 发 挥 作用 。 


决策 树 万 法 是 一 种 分 类 方法 ， 因 此 决策 树 的 典型 用 途 是 预测 一 个 类 或 类 别 。 然 而 ， 也 有 一 些 类 型 的 决策 树 ， 称 为 回归 树 ， 它 
们 的 输出 是 连续 变量 ， 而 不 是 类 别 。 利 用 这 种 特性 ， 我 们 可 以 研究 使 用 数值 和 分 类 变量 混合 的 开 上 友 模 型 。 


决策 树 广泛 应 用 于 市 场 营销 和 广告 ， 以 及 任何 需要 将 客 尸 分 成 不 同 群体 的 其 他 行业 。 它 们 也 用 于 疾病 的 医疗 保健 和 风险 分 


类 。 


5.1.1 ”决策 树 的 优点 


决策 树 有 很 多 优点 。 拉 术 人 员 和 业务 人 员 都 能 轻松 理解 ， 并 且 能 够 以 非常 简便 或 非常 详细 的 方式 来 呈现 相关 的 解决 方案 。 


该 算法 可 以 专门 针对 用 户 及 其 问题 的 类 型 来 进行 调整 ， 具 体 地 说 ,包括 领域 特定 的 变量 的 包含 、 排 除 ， 以 及 算法 的 复杂 程 
度 。 当 面 对 通 弟 意 义 上 的 小 到 中 等 数量 的 变量 时 ， 决 策 树 是 最 有 用 的 ， 目 标 是 了 解 变量 之 间 的 相互 作用 。 决 策 树 也 是 讲 故 事 的 好 
工具 ， 因 为 树 的 目 然 呈现 、 分 裂 机 制 与 业务 规则 决策 相 适 应 ， 每 个 特定 节 点 都 可 以 根据 需要 进行 检查 和 质疑 。 


决策 树 可 以 处 理 分 类 和 数字 变量 ， 还 能 够 处 理 缺失 值 。 没 有 必要 到 痉 或 插 补 任何 缺失 值 。 


5.1.2 ”决策 树 的 责 后 


大 多 数 决 策 树 利用 的 都 是 所 谓 的 贫 梦 算法 。 关 于 贫 构 的 意思 ， 有 很 多 定义 ， 不 过 我 喜欢 的 定义 是 : 它 忌 是 根据 当时 可 用 的 所 
有 信息 做 出 最 佳 的 选择 。 创 建树 的 时 候 并 不 会 有 所 谓 “ 事 后 的 认识 ”。 数 据 的 任何 轻微 变化 都 可 能 改变 结果 ， 如 果 你 使 用 后 来 加 
入 的 样本 运行 算法 ， 结 果 可 能 不 会 以 完全 相同 的 方式 复 现 出 来 。 当 以 目 动 化 方式 运行 时 ， 也 不 能 强制 树 选择 你 想 要 的 路 径 。 如 果 
要 完全 控制 选择 ， 你 最 好 用 交互 式 决策 树 。 通 过 这 种 万 式 你 可 以 使 用 点击 来 控制 节点 的 选择 。 不 幸 的 是 ， 这 种 方法 没有 很 多 开源 
的 程序 可 以 选择 。 


此 外 ， 在 决 荣 树 算法 中 存在 内 置 的 翁 状 ， 因 为 它们 倾向 于 具有 大 量 类 别 的 变量 。 这 使 得 这 种 算法 能 够 分 有 出 大 数量 的 类 别 ， 
即使 结果 没有 任何 意义 (我们 将 在 示例 中 看 到 这 一 点 ) 。 大 决策 树 可 以 产生 无 效 或 患 蕊 的 结果 ， 特 别 是 当 树 的 规模 非常 巨大 的 时 
候 。 很 容易 出 现 过 拟 合 ， 但 是 有 一 种 叫 作 修 剪 的 拷 术 ， 可 用 于 减少 这 种 现象 。 随 机 森林 树 有 助 于 改善 这 些 缺 操 ， 因 为 它 不 是 在 每 
棵 树 中 包含 所 有 的 变量 ， 而 是 使 用 建立 共识 来 产生 结果 。 


尽管 决策 树 存 在 着 这 些 缺 后， 但 我 依然 主张 将 其 更 多 地 用 作 一 种 探索 性 工具 (无 监督 学 习 ) ， 你 将 友 现 ， 当 使 用 有 组 织 、 
条 理 的 方法 进行 分 析 时 ， 它 会 友 现 数据 中 存在 的 许多 重要 天 系 。 它 也 是 验证 从 其 他 类 型 的 模型 获得 结果 的 好 方法 。 如 果 你 友 现 其 
他 模型 获得 了 更 好 的 结果 ， 但 是 无 法 在 决策 树 模型 中 可 视 化 复制 ， 那 么 这 说 明 有 很 大 的 可 能 ， 访 复杂 模型 的 结果 将 来 不 能 重 现 。 


5.1.3 ”决策 树 的 基本 概念 


决策 树 算法 类 似 于 “20 个 问题 ”的 游戏 ,或 者 说 答案 是 动物 、 植 物 还 是 矿物 质 这 样 的 问题 。 一 个 基本 的 决策 树 算 法 将 从 树 
类 





的 根 古 点 开始 一 一 根 节 点 代表 所 有 的 数据 ， 并 且 继 续 将 每 个 书 点 代表 的 类 别 分 多 为 两 个 基于 最 优 方 法 的 子 类 别 ， 以 便 能 够 猜 出 
最 佳 特征 来 识别 每 一 个 子 类 别 。 这 被 称 为 分 多 忆 后 。 然 后 ， 算 法 将 继续 分 多 数 据 ， 直 到 节点 不 能 下 分裂 ， 或 者 以 基于 控制 参数 的 
其 他 方式 停止 分 裂 。 


例如 ， 如 果 我 们 要 根据 骨 质 距 松 钙 、 缺 血性 心脏 病 和 处 方 的 平均 数量 来 分 类 性 别 ， 我 们 可 以 开 上 友 一 种 看 起 来 像 这 样 的 树 : 


你 会 注意 到 ， 第 一 个 问题 是 “患者 是 人 否 患 有 骨 质 芷 松 症 ”。 然 后 根据 答案 ， 再 询问 一 系 询 问题 ， 最 终 会 将 病人 放 入 树 的 一 个 
末 站 节 点， 在 这 个 节点 中 ， 不 再 提出 任何 可 以 改善 结果 的 问题 。 


5.1.4 扩展 树 


我 们 的 原始 书 点 忌 是 从 树 的 根部 开始 。 在 上 图 中 ， 第 一 个 书 点 只 是 从 性 别 角 度 描述 人 口 的 分 类 。 在 这 个 示例 里 ， 女 性 占 人 口 
的 58%。 决 策 树 算法 的 目标 是 : 持续 扩展 一 棵 树 ， 并 改善 了 预测。 所 以 ， 在 这 一 点 上 ， 我 们 要 做 得 比 58% 的 性 别 预 测 更 好 一 些 。 


RR File History Resize Windows 


加 图 口 


Decisionrree 2010_Chronic_Conditions_PUF.txt $ Gender 
已 
100% 


: UV0U0 UU0000000000064000000 0640000000000000 O0000 00600 100 050000000000 [es]…0steoporosis =Y'[no} 


X.Average.Prescriptions.per.Beneficiary…PartD--12. >= 68 


lschemic.Heart Disease = N…… : 


ee 
.56 .44 
8 
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当 我 们 扩展 决策 树 时 ， 总 是 需要 考虑 两 个 问题 : 
- 在 该 节点 上 ， 哪 一 个 变量 最 有 可 能 改善 目标 变量 在 分 类 上 的 预测 ? 


: 对 于 该 变量 来 说 ， 将 分 类 变量 分 为 两 部 分 ， 或 将 连续 变量 分 为 两 部 分 ， 将 改进 该 类 的 预测 ， 这 个 最 佳 分 裂 点 是 什么 ? 


这 个 决策 的 结果 ， 将 是 一 个 新 的 树 古 点 或 叶 节 点 。 在 经 典 的 决策 树 中 ， 通 剃 有 两 条 路 径 (是 或 殖 ， 高 或 低 ) ， 但 有 些 算法 可 
以 有 多 于 两 条 路 径 。 


在 我 们 前 面 的 示例 中 ， 算 法 将 首先 运行 所 有 变量 ， 并 确定 哪个 变量 可 以 改进 预测 。 该 变量 恰好 是 “是 否 患 有 骨 质 玖 松 症 ” 
如 果 有 肖 质 下 松 症 ， 那 么 预测 患者 是 女性 会 有 74% 的 准确 性 。 然 而 ， 当 没有 骨 质 琉 松 症 时 ， 女 性 的 概率 实际 上 下 降 到 51%， 这 比 
研究 中 女性 原始 58% 的 表现 略 差 。 


但 是 请 等 一 下 。 分 区 算法 将 继续 尝试 再 次 分 裂 数 据 。 这 次 将 平均 处 方 变量 视 为 改进 预测 的 一 种 方式 。 每 个 受益 人 每 年 处 方 的 
平均 处 理 次 数 约 为 15 ~ 200 次 。 算 法 尝试 将 此 数据 中 的 所 有 值 分 成 两 部 分 。 例 如 ， 可 能 会 尝试 首先 比较 10 个 或 更 多 处 方 的 患者 ， 


以 及 9 个 或 更 少 处 方 的 患者 。 然 后 看 看 该 截断 值 的 预测 结果 如 何 。 接 着 ,继续 修改 截断 值 ， 直 到 找到 能 使 两 个 类 之 间 的 间隔 最 大 
的 最 优 截 断 值 。 


在 这 个 示例 里 面 ,我 们 已 经 友 现 ，51 个 处 方 是 优化 “没有 骨 质 开 松 症 的 患者 ”的 最 优 分 多 截 断 值 。 当 处 方 数 大 于 50 时 ， 患 
者 为 男性 的 概率 为 64%。 


5.1.5 不 纯度 


当 一 个 节 点 根据 最 佳 标 准 进行 分 裂 之 后 ， 需 要 对 得 到 的 子 书 点 进行 不 纯度 检验 。 不 纯度 根据 在 这 一 节点 上 预期 的 频率 是 多 少 
来 衡量 
随机 类 分 配 。 不 纯度 最 小 的 情况 是 ， 当 决策 规则 将 所 有 观测 数据 全 部 放 在 一 个 类 中 ，0 个 观测 数据 被 放置 在 另 一 个 类 中 。 这 是 理 
有 的 情 


计算 完了 不 纯度 的 测量 值 忆 后 ， 算 法 融会 运行 一 个 信息 增 蔡 测量 ， 该 测量 计算 每 个 变量 分 介 市 来 的 不 纯度 的 减少 量 ， 进 而 计 


算 连 续 变 量 所 有 可 能 的 分 异 操 。 


5.1.6 ”控制 树 的 增长 


购物 车 的 一 个 特征 (在 R 语 言 中 通过 rpart 实 现 ) 是 它 将 和 兰 试 所 有 可 能 的 变量 和 分 妥 点 ， 直 到 找到 最 好 的 。 根 据 算法 的 配置 方 
式 ， 可 以 实现 最 高 信息 增 葵 。 然 而 ， 在 现实 世界 中 ， 几 乎 没有 一 棵 树 可 以 无 限 生 长 。 树 的 生长 是 受到 限制 的 。 限 制 的 示例 包括 指 
定 可 以 生长 的 分 文 的 最 大 数目 ， 或 者 叶子 中 包含 的 最 小 观测 数据 数量 。 因 此 ， 预 测 建 模 者 可 以 根据 需要 ， 把 一 棵 树 构造 得 简单 一 


些 或 复杂 一 些 . 


5.1.7 ” 决 宁 树 算 法 的 类 型 


在 R 语 言 中 有 两 种 类 型 的 决策 树 算法 。 我 们 首先 来 看 传统 的 算法 ， 叫 作 rpart， 并 使 用 这 种 算法 来 分 析 state.x77 数 据 ， 根 据 
其 中 的 一 些 属性 来 确定 预期 寿命 。 


以 下 是 对 state.x77 数 据 的 元 数据 的 描述 。 你 还 可 以 通过 在 R 控 制 台 输入 ”x77.data 来 获取 有 关 这 个 表格 的 更 多 信息 。 


Population 1975 年 7 月 1 日 佑 计 的 人 口 数 量 

Income 人 均 收 入 (1974) 

Illiteracy 文昌 这 (1970， 占 总 人 口 的 百分比 ) 

Life experience 多 年 的 预期 寿命 ( 1969 一 1971 ) 

Murder 每 10 万 人 谋杀 和 非 跑 忽 误 杀 率 ( 1976 ) 

HS graduate 高 中 毕业 生 比 例 ( 1970) 

Frost 首都 或 大 城市 中 最 低温 度 在 堆 下 的 天 数 ( 1931 一 1960 ) 
Area 以 平方 英里 为 单位 的 土地 面积 


首先 ， 我 们 将 这 个 数据 和 另外 两 个 参考 数据 集 连 接 起 来 。 使 用 R 帮 助 系统 ， 可 以 获取 有 关 那 两 个 辅助 表格 的 更 多 信息 : 
State.abb: 获得 州 的 缩写 
.state.region: 获得 州 的 地 理 位 置 


statedf <- as.data.frame (state.x//) 
x <—- data.frame (statedf, state.abb,state.reglion) 
summary (x) 


summary () 函数 的 输出 显示 在 控制 台中 : 


> Summary(x) 
Population Income Illiteracy Life. HS. Grad 

Min. - Min. :3098 Min. :0.500 Min. :67. in. - Min. :37. 

1st QuU..: 1st QU. :3993 1st Qu. :0.625 1st Qu. :70. 2 1st Qu. :48. 

Median : Median :4519 Median :0.950 Median :70. i : 6. Median :53. 

Mean = Mean :4436 Mean ~ Mean tt = Mean :23 了。 Mean 
3rd Qu. : 4968 3rd Qu. :4814 3rd Qu. :1. 575 3rd Qu. :71. 3rd Qu. :10. 675 3rd Qu. :59. 3rd Qu.: 
Max. :21198 Max. :6315 Max. :2.800 Max. i Max. :15.100 Max. :67. Max. - 


Area state. abb state.region 

Min. : 1049 -| Northeast : 9 
1st Qu. : 36985 1 south :16 
Median : 54277 - 寺 North Central:12 
Mean : 70736 -| West :13 
3rd Qu. : 81163 CA : 1 
Max. :566432 CO -二 = 

(Other ) :44 





5.1.8 检查 目标 变量 


目标 变量 Life.Exp 的 快速 直方 图 显示 了 相当 大 的 变化 。 因 此 ， 可 以 认为 它 是 一 个 很 好 的 潜在 目标 变量 。 


hist (x$Life .Exp) 


x$Life.Exp 的 直方 图 


71 72 


x$Life.Exp 





5.1.9 ”在 rpart 模 型 中 使 用 公式 符号 


我 们 已 经 见 过 ， 在 R 语 言 中 ， 如 何 使 用 公式 表示 法 指定 回归 模型 。 例 如 ， 我 们 使 用 Im (women$height ~ 
women$weight) 这 样 的 语句 ， 根 据 体重 来 预测 身高 。 


回归 模型 中 公式 符号 的 一 般 形式 是 : 


其 中 因 变 量 位 于 波浪 号 (~ ) 的 左 侧 ， 而 上 自 变 量 位 于 波浪 号 的 右 侧 。 


使 用 公式 表示 法 也 可 以 设置 一 个 rpart 模 型 ， 只 是 术语 略 有 变化 。 在 rpart 模 型 中 ， 我 们 可 以 在 波形 符 ( ~ ) 的 左 侧 指定 目标 
变量 (Life.Exp) ， 并 在 波形 符 的 右 侧 指 定 了 预测 变量 。 我 们 将 使 用 点 号 (.) 来 指定 需要 考虑 所 有 的 变量 。 


点 号 是 指定 所 有 变量 的 一 种 方便 的 方法 ; 但 是 ， 当 你 建立 模型 时 ， 也 可 以 不 使 用 点 号 ， 而 是 指定 你 感 兴趣 的 变量 的 具体 列 


表 ， 这 将 加 快 处 理 速 度 ， 避 免 不 必 要 的 分 裂 。 


在 接 下 来 的 示例 中 ， 你 可 以 看 到 rpart 将 选择 state 作 为 最 佳 的 初始 分 裂变 量 。 虽 然 这 可 能 最 终生 长 为 一 个 非常 准确 的 决策 
树 ， 但 残 预测 能 力 而 言 ， 最 初 在 像 州 这 种 高 维度 的 变量 上 分 妥 ， 并 不 能 使 我 们 很 好 地 了 解 什么 因素 影响 预期 寿命 的 变化 。 确 实 有 
可 能 将 这 尝 州 分 胸 成 各 干 地理 区 域 。 但 是 ， 通 剃 你 只 会 看 到 对 州 产 生 的 分 裂 结果 没有 任何 意义 。 


下 面 的 示例 中 ， 我 们 将 使 用 rpart () 函数 来 生成 一 棵 简单 的 决策 树 。 我 们 还 将 使 用 rpart.plot 包 里 面 的 prp () 函数 ,可 视 
化 这 棵 决策 树 : 


lnstall.packages ("rpart™") 
install.packages ("rattle") 
install.packages ("rpart .plot™") 
linstall.packages ("RColorBrewer") 


library (rpart) 

library (rattle) 

LDOERTEwERa Lot 

library (RColorBrewer) 

set.seed(1020) 

yl <— rpart (Life.Exp ~ .,data=x, cp=.01) 
prp(lyl, type=4, extra=1) 


5.1.10 ”图 的 解释 


下 面 的 图 中 ， 节 点 的 分 裂 纯粹 基于 state， 对 state 如 何 分 组 没有 任何 的 进一步 考虑 。 请 注意 ，state.region 在 分 裂 算法 中 根 
本 不 是 考虑 因素 ， 所 以 最 好 的 猜测 是 大 部 分 的 分 裂 是 纯粹 机 械 的 和 视觉 的 ， 没 有 明显 的 分 组 反映 在 哪个 分 裂 中 : 


=50 


= AK,AL,AR,AZ.DE,FL,GA,IL,IN,KY,LA,MD,ME,MI,MO,MS,MT,NC,NJ,NM,NV,NY,OH,PA, sC, TN, TX,VA,WVY, WY 
CA,CO,CT,HI,IA,ID, KS,MA,MN,ND,NE,NH,OK,OR.,RI,SD,UT,VT,WA,W 


state.ab = AK,AL,GA,LA,MS,NC,NV, SC,WV state.ab = CA,CO,ID, MA,NH,OK,OR,RI, SD,VT,WA 
AR,AZ,DE,FL,IL,IN, KY,MD,ME, MI, MO,MT, NJ NM NY,OH,PA,TN,TXVAWY CT,HI,IA,KS,MN,ND,NE,UT,VWI 


state.ab = DE,IL,KY, MD, ME,NM,PA, THN, VA, WY 
AR,AZFL, IN, MI, MO, MT,NJ,NY,OH, TX 


en 





5.1.11 输出 决策 树 的 文本 版 本 


输出 rpart 对 象 也 会 给 出 文本 输出 ， 将 显示 每 次 分 裂 节点 后 产生 的 每 个 类 的 成 员 。 具 有 星 号 (*) 的 条 目 是 终端 节点 。 终 端 节 
所 不 能 进一步 分 裂 。 通 常 ， 仪 基于 终 英 节点 才能 进行 分 段 ， 假 设 终 尊 节点 大 小 足够 大 ， 这 样 基于 它们 做 出 决策 是 可 行 的 : 


> Print (y1]) 


print () 函数 将 下 面 的 输出 显示 在 控制 从: 
n= DO 


node), split, n, deviance, yval 
* denotes terminal node 


1 Oo 50 88,.2990000 0,8786U 

全 

state.abb=AK, AL, AR, AZ,DE,FL,GA,IL,IN,KY,LA,MD,ME,MI,MO,MS,MT, NC, NJ, NM, NV,NY 
;: OH, PA, SC, TIN, TX, VA, WV,WY 30 21.0890000 69.98000 

4) state.abb=AK,AL,GA,LA,MS,NC,NV,SC,WV 9 2.2790220 68.82556 * 

5) state.abb=AR,AZ,DE,FL,IL,IN,KY,MD,ME,MI,MO,MT,NJ,NM,NY,OH,PA,TN,TX,VA,WY 
21 1.6747240 70.47476 

10) state.abb=DE, IL,KY,MD,ME,NM,PA,TN,VA,WY 10 0.1656400 70.21400 * 

11) state.abb=AR,AZ,FL,IN,MI,MO,MT,NJ,NY,OH,TX 11 0.2109636 70.71182 * 

3) state.abb=CA,CO,CT,HI,IA,ID,KS,MA,MN,ND,NE,NH,OK,oOR,RI,SD,UT,VT,WA,WI 20 
6.6488550 72.22650 

6) state.abb=CA,CO,ID,MA,NH,OK,OR,RI,SD,VT,WA 11 0.7760909 71.78091 * 

7) state.abb=CT,HI,IA,KS,MN,ND,NE,UT,WI 9 1.0192890 72.77111 * 


如 果 从 模型 中 删除 state， 我 们 将 从 一 个 可 理解 性 更 好 些 的 模型 开始 。 在 prp () 消 数 绘制 结果 之 后 ， 你 可 以 看 到 树 的 所 有 左 
分 支 都 是 基于 较 高 的 谋杀 率 。 该 分 支 的 两 个 终 辛 承 载 的 数据 表明 ， 谋 杀 率 >11% 的 地 区 的 预期 寿命 ， 要 比 谋杀 率 <11% 的 地 区 少 
1 年 。 


决策 树 右 侧 的 分 支 集中 在 谋杀 率 较 低 的 部 分 。 对 于 这 些 分 支 ， 我 们 还 要 考虑 区 域 。 北 部 和 南部 地 区 预期 寿命 比 西部 或 北 中 部 


地 区 低 1 年 : 


y2 <- rpart (Life.Exp ~ Population + Income + Illiteracy + 
Murder + 


HS .Grad + 
Frost + 


71 
N=50 
Murder >= 6.6 ~ 


<6.6 


Lard 4 


Murder >= 11 state.re = Nrt sth 


NrC,Wst 


n=10 B=13 





Area + 


state.region,method='anova', 
data=x 


prp(y2, type=4, extra=1]) 


ctree 算 法 


ctree 消 数 跟 rpart 相 比 有 一 些 优点 ， 它 产生 的 结果 可 能 更 直观 。ctree 使 用 统计 假设 检验 来 确定 分 裂 结果 是 人 否 具 有 统计 学 意 


义 ， 而 不 是 纯粹 基于 所 得 万 点 的 纯度 来 优化 结果 节点 。 它 使 用 卡 方 检验 统计 来 测试 关联， 只 保留 重要 的 天 联 ， 从 而 消除 由 于 大 量 
类 别 引 起 的 偏差 。 所 以 虽然 在 某 些 情况 下 准确 性 可 能 会 受到 损害 ， 但 其 结果 具有 更 强 的 可 解释 性 ， 也 是 很 有 益处 的 : 
lnstall.packages ("partykit") 
library (partykit) 
y2 <—- ctree (Life.Exp ~ 
y2 
PLOoOt.Lya) 


.,; data=x) 


和 
个 分 列 


从 下 面 的 图 形 可 以 看 出 ，ctree 及 用 和 rpart 相 同 的 方法 进行 第 一 次 分 多 (谋杀 率 ) ， 截 断 点 非常 相似 。 这 可 以 为 第 一 
添加 额外 的 凭据， 因为 两 种 不 同 的 算法 都 证 实 了 它 : 





5.1.12 ” 修 竞 

修剪 是 另 一 种 防止 过 拟 合 的 方式 。 如 果 你 检查 一 棵 决策 树 的 图 形 ， 并 友 现 你 想 要 在 特定 节操 处 停止 分 支 的 增长 ， 则 可 以 修剪 
该 节点 下 的 所 有 分 六 ,以便 将 该 节点 下 的 所 有 结果 折 羡 成 单个 节点 。 这 可 能 会 为 这 个 节操 显示 的 决策 规则 提供 更 多 可 解释 的 结 
采 。 

rpart 具 有 一 个 独特 的 交互 式 修剪 功能 ,使 用 prp () 函数 可 以 帮助 你 执行 这 个 操作 。 

在 以 前 的 state 示 例 中 ， 你 可 能 想 去 掉 节 点 70 下 面 的 所 有 节点 ， 以 平衡 决策 树 ， 并 将 其 深度 保持 在 两 层 。 平 衡 的 决策 树 也 可 
以 看 作 一 个 令 人 满意 的 现象 : 

PrunedTree <- prp(lyl,type=4, extra=1, snip=TRUE) 3$ob 

单 击 节点 70 并 观察 控制 台 ， 等 待 Delete node 5 这 条 消息 。 看 到 该 消息 后 ， 单 击 图 中 的 Quit: 


> PrunedTree <- prpl(yl,type=4, extra=1, snip=TRUE) S$ob] 
区 TO SDID sea 


Delete node 3， state.ab = DE,IL,KY,MD,ME,NM,PA,TN,VA,WY 
Var nNn wt dev yval complexity ncompete nsurrogate 
5 state.abb 21 21 1.7 70 015 4 9 


显示 新 的 决策 树 的 结果 ， 请 注意 ， 市 点 已 被 删除 : 


prp (PrunedTree, type=4, extra=1) 


PA,SC, TN,TX,VA,WV,WY 


DO,MS,MT,NG, NYJ,NM,NV,NY,C 
;NE,NH,OK,OR,RI,SD,UT,VT,WA,WI 


state.ab = AK,AL,AR,AZ,DE,FL,GA,IL,IN, KY ,LA,MD,ME.,MI 
CA,CO,GT,HIIA,ID,KS,MA, MN,ND 


一 


70 


n=30 
state.ab = AK,AL,GA,LA,M en 


一 一 二 一 、 
12 
n=11 
state.ab = DE.,IL,KY,MD,ME.,NMNM ,PA, TN, 
AR,AZ,FL,IN, MI,MO, MT,NJ,NY,OH, 1X 


下 
n=11 





分 析 有 很 多 用 途 。 在 其 基本 层面 上 ， 聚 类 是 一 组 具有 相似 特征 的 人 或 对 象 。 在 市 场 营销 和 销售 行业 ， 聚 类 是 很 重要 的 ， 
个 聚 类 ， 这 个 聚 类 中 所 有 属性 都 


聚 类 分 
因为 客户 (或 潜在 客户 ) 可 以 按照 平均 支出 、 购 买 频率 和 近期 购买 等 特征 进行 分 组 ， 并 分 配 到 一 个 聚 类 ， 


有 各 目的 级 别 ， 不 过 所 有 实例 在 同一 个 属性 上 的 指标 都 是 相同 的 。 因 此 ， 对 于 我 们 的 RFM 示 例 ， 聚 类 A 可 能 代表 了 伦 费 大 量 资 金 
并 频繁 消费 (每 个 营销 人 员 的 梦想 ) 的 客 尸 。 聚 类 B 可 以 代表 那些 在 RFM 这 三 个 指标 中 都 处 于 平均 水 平 左 右 的 客 尸 ， 甚 至 可 能 


一 八 取 米 
| 聚 类 


Z 代 表 了 一 些 似乎 是 不 可 能 出 现 的 人 群 ， 例 如 仅 在 星期 二 购买 万 圣 节 服饰 的 客户 。 
数据 分 析 人 员 通 弟 可 以 通过 使 用 诸如 SQL 之 类 的 工具 ， 或 者 通过 对 客户 行为 的 深入 了 解 ， 来 获得 民 好 的 结果 。 因 此 ， 尽 管 聚 
类 分 析 本 身 并 不 一 定 是 目的 ,但 是 聚 类 算法 可 以 让 你 快速 地 直接 开始 ， 并 使 你 能 够 以 一 些 不 同 的 方式 看 待 分 组 这 件 事 。 


5.2.1 聚 类 分 析 应 用 于 多 种 行业 


町 


半天 这 
聚 类 。 它 也 可 


` 在 市 场 营销 和 销售 方面 ， 你 可 能 听 到 过 产品 细 分 这 个 词 ， 这 是 指 如 何 按 照 各 个 方面 的 产品 偏好 对 人 群 进行 
愿意 购买 的 客户 进行 营 


人 > 人 心 > 


虽 客 户 购买 产品 的 意愿 ， 其 最 终 目 的 是 能 够 将 客户 都 分 到 两 个 组 中 《愿意 和 不 愿意 ) ， 并 且 仅 对 预测 显示 


销 。 
: 保险 公司 可 以 根据 客户 提出 索赔 的 频率 或 者 按照 一 定 的 风险 特征 将 客户 分 类 。 


5.2.2 ”什么 是 聚 类 


聚 类 可 以 定义 为 具有 相似 特 征 的 一 组 对 和 象 。 聚 类 的 大 小 可 以 有 所 不 同 。 聚 类 并 不 是 必须 具有 一 定数 量 的 成 员 才 行 ， 它 甚至 可 
以 仅 有 一 个 成 员 。 这 可 能 在 你 想 要 识别 数据 异常 的 欺诈 应 用 程序 中 很 有 有 用。 在 这 种 情况 下 ， 非 常 小 的 聚 类 可 以 作为 异 弟 值 对 竺 。 


在 构造 聚 类 时 ， 经 常会 使 每 个 组 (例如 在 分 区 聚 类 ) 中 具有 相同 数量 的 成 员 。 在 这 种 情况 下 ， 每 个 聚 类 中 的 所 有 成 员 都 是 同 
构 的 。 


此 外 ， 构 建 聚 类 的 时 候 ， 需 要 使 每 个 聚 类 与 其 余 聚 类 具有 了 明显 的 差异 。 这 些 差异 通 单 基于 各 个 聚 类 质心 之 间 的 测量 来 计算 ， 
每 个 聚 类 质心 是 这 个 聚 类 的 中 间 值 ， 可 以 认为 它 表 示 的 是 该 聚 类 包含 的 属性 的 平均 值 。 


聚 类 通常 只 用 在 数值 变量 上 。 这 是 因为 聚 类 利用 距离 测量 ， 而 正如 我 们 已 经 知道 的 ， 分 类 变量 之 间 没 有 办 法 进行 距离 测量 。 
然而 ， 有 些 别 的 方法 可 以 使 用 分 类 变量 来 结合 相似 性 ， 我 们 稍 后 将 会 介绍 。 


5.2.3” 聚 类 的 类 型 


分 区 聚 类 也 称 为 非 层 次 聚 类 。 在 分 区 聚 类 中 ， 所 有 对 象 被 分 成 具有 相似 特征 的 较 小 的 非 重 晋 子 集 (分 区 ) 。 一 个 观测 数据 只 


这 是 一 个 三 群 分 区 模型 的 典型 示例 。 你 可 能 会 想 知 道 ， 为 什么 黄色 的 观测 数据 会 在 黄色 聚 类 而 不 是 红色 聚 类 中 。 这 是 因为 k 
均值 已 经 确定 了 每 个 聚 类 的 线性 边界 在 何 处 ( 右 图 ) ,并 且 落 在 任何 特定 决策 边界 内 的 任何 点 都 由 该 聚 类 的 边界 定义 : 





5.2.5 ”测量 聚 类 之 | 目的 EE 离 


k 均 值 聚 类 使 用 欧 氏 距离 来 确定 每 个 聚 类 彼此 之 间 有 多 远 。 对 于 只 有 一 个 变量 的 聚 类 ,计算 量 是 微不足道 的 。 你 只 需 从 任意 
两 个 聚 类 中 取出 质心 ， 然 后 用 它们 做 减法 束 可 以 了 。 当 你 添加 更 多 的 变量 时 ， 计 算 会 变 得 更 加 复杂 ， 因 为 需要 把 两 个 聚 类 的 所 有 
变量 之 间 的 平方 差 相 加 来 确定 总 距离 。 


下 面 是 一 个 示例 ,说 明 如 何 确 定 已 经 分 配给 聚 类 1 的 三 个 聚 类 成 员 的 质心 。 质 心 1 已 经 计算 出 来 了 ， 即 向量 [186，45] 。 其 


中 186 是 三 个 成 员 1、2、3 的 体重 的 平均 值 ， 而 45 是 成 员 1、2 和 3 的 平均 年 龄 。 这 些 不 是 最 终 的 聚 类 分 配 ， 而 仅仅 是 计算 过 程 中 
某 时 刻 的 一 个 最 佳 猜 测 : 


2 175 43 
质心 1 186 45 


下 一 步 是 为 每 个 聚 类 的 质心 找到 一 个 更 好 的 估计 值 。 然 后 将 每 个 成 员 的 各 维度 与 所 有 聚 类 的 质心 进行 比较 ， 重 新 分 配 到 最 接 
近 的 聚 类 。 这 是 使 用 欧 氏 距离 的 概念 来 完成 的 。 


欧 氏 距离 计算 公式 如 下 


~ 





p; ) 


在 我 们 之 前 定义 的 年 龄 和 体重 沁 例 中 ， 成 员 1 在 聚 类 1 (成 员 当 前 所 属 的 第 一 个 成 员 聚 类 ) 和 聚 类 2 之 间 的 欧 氏 距离 已 经 计算 
出 来 。 该 距离 是 使 用 上 述 公式 计算 的 ， 下 表 的 最 后 一 列 给 出 了 最 后 的 平方 和 的 结果 。 正 如 你 所 看 到 的 ， 由 于 聚 类 2 的 质心 到 成 员 
1 的 距离 较 小 ， 表 示 它 们 更 靠近 ， 因 此 成 员 1 被 移入 聚 


本 总 平方 要 





成 员 1 45 
35 





在 为 所 有 成 员 计 算 了 到 各 质心 的 距离 ， 且 每 个 成 员 已 经 移动 到 最 近 的 聚 类 中 之 后 ， 每 个 聚 类 的 质心 都 会 改变 ， 因 为 已 经 被 添 
加 或 删除 了 成 员 。 然 后 ， 继 续 重复 这 个 过 程 ， 直 到 没有 更 多 的 成 员 可 以 移动 到 更 适合 的 聚 类 中 为 止 。 


使 用 k 均 值 的 聚 类 示例 


下 面 我 们 要 展示 一 个 简单 的 RFM 聚 类 的 示例 。RFM 分 析 是 一 个 简单 的 数据 库 营 销 万 案 ， 可 以 用 来 细 分 你 最 好 的 (和 最 磊 
的 ) 客 尸 。 对 于 演示 聚 类 分 析 来 咬 ， 这 是 一 个 很 好 的 示例 ， 因 为 它 只 有 三 个 变量 ， 并 且 在 理论 上 可 以 分 割 成 更 多 数量 的 市 场 细 


O 


数据 来 自 CDNOW 数 据 库 ， 该 数据 库 中 有 23 570 人 的 截止 到 1998 年 6 月 底 的 所 有 购买 历史 ， 这 些 人 全 部 都 是 在 1997 年 第 一 
季度 首次 在 CDNOW 有 购买 记录 的 (Fader，2001) 。 


下 面 是 我 们 要 用 到 的 3 个 变量 : 
- Date of purchase: 这 是 购买 产品 的 日 期 ， 用 于 确定 RFM 分 析 的 最 近 购 买 部 分 。 
Units bought: 这 对 应 于 购物 车 中 购买 的 物品 的 数量 ， 大 致 对 应 于 客户 的 频率 。 
.Total paid: 这 是 购买 的 总 金额 。 这 反映 了 REFM 的 货币 部 分 。 

首先 ， 我 们 将 读 取 数据 ， 将 日 期 转换 为 数值 ， 然 后 计算 购买 后 的 天 数 。 

接着 为 变量 分 配 列 名 : 


library (graphics,) 

librarv(todplvr) 

x <— read.table("C:/PracticalPredictiveAnalytics/Data/CDNOW_master.txt", 
quote="\", stringsAsFactors=FALSE) 


接 下 来 我 们 会 将 购买 日 期 转换 为 数值 格式 ， 并 计算 购买 后 的 时 间 。 以 1998 年 7 月 1 日 为 参考 日 期 : 


x$xd <—- as.Date(as.character (x$V2), "%Y%m%$d") 
xs$5diffdate <- as.integer(as.Date("1998-07-01") 一 XSXd) 
#rename the columns 


colnames (x) <-— 


el" T1000, “Orid.date ny UNItSe. EGGnE  , "IotalPald”; Mureh. .date™, Davs. Sincee"™) 
Set] 
summary (x) 


我 们 将 演示 Kk 均 值 辫 数 如 何在 变量 units.bought、TotalPaid 和 Days.since 上 执行 k 均 信和 聚 类 。k 均 值 聚 类 的 一 个 特征 是 


征 . 


个 观测 值 可 以 归于 一 个 ， 并 且 只 能 归于 一 个 聚 类 。k 均 值 要 求 所 有 的 变量 都 是 数值 ， 不 能 在 k 均 值 浮 数 中 使 用 分 类 变量 。 


你 需要 做 出 的 一 个 决定 是 指定 让 k 均 值 产生 多 少 个 聚 类 。 我 通常 喜欢 把 目标 定 在 5 ~ 15 个 聚 类 。 超 出 这 个 范围 之 外 的 数量 ， 
会 对 解释 每 个 聚 类 背后 的 含义 造成 困难 ， 但 是 你 当然 也 可 以 试 试 这 么 做 。 增 加 聚 类 数量 还 有 一 个 问题 ，k 均 值 算法 倾向 于 产生 大 


小 相等 的 聚 类 ， 所 以 当 你 增加 聚 类 数量 时 ， 一 些 离 群 聚 类 的 成 员 数 量 融 会 变 得 很 少 。 


k 均 值 的 输出 将 会 给 你 一 个 关于 聚 类 的 好 坏 程 度 的 总 体 搬 述 。 聚 类 内 平 万 和 表示 每 个 聚 类 内 各 个 数据 点 的 分 离 程度 。 这 个 数 
字 越 小 ， 表 明 聚 类 越 均匀 。betweenss/totss 比 率 是 一 个 度量 标准 ， 可 以 用 来 衡量 所 有 聚 类 是 如 何 作为 群 组 分 隔 的 。 这 个 数字 越 


高 ， 表 示 聚 类 的 分 离 越 好 。 


对 于 这 个 示例 ， 我 们 将 生成 大 小 为 3、5 和 7 的 聚 类 : 


attach (x) 
#cluster on the RFM variables 
y <— subset (x, select = c(units.bought,TotalPaid,Days.since),) 


#perform kmeans producing 3 and 5 clusters 


k 均 值 需要 一 个 随机 数 种 子 ， 以 便 最 开始 的 时 候 产 生 一 个 伪 随 机 的 聚 类 分 配 。 改 变 这 个 种 子 可 能 会 改变 聚 类 结果 。 由 于 聚 类 
结果 在 一 定 程 度 上 需要 人 去 解释 ， 通 常会 使 用 不 同 的 种 子 来 运行 该 算法 几 次 ， 并 且 观 察 这 些 结果 彼此 是 否 一 致 ( 或 不 一 致 ) 。 


#always set seed before clustering 


set.seed(1020) 

clust3 <- kmeans( y,3) 
clust3S$betweenss/clust3stotss 
clust5 < kmeans( Y D) 
clust5$betweenss/clust5$totss 
IuUsSt! <= KMeAanNns( v4) 
clust7S$betweenss/clust7S$totss 


创建 三 个 聚 类 后 ， 打 印 聚 类 之 间 的 平方 和 与 聚 类 的 总 平方 的 比例 。 这 会 产生 一 个 评价 聚 类 的 指标 。 比 例 数 字 越 大 意味 着 聚 类 
之 间 的 分 离 越 好 : 


> set.seed(1020) 

> Clust3 <- kmeans( y,3) 

> Clust3$betweenss/clust3$totss 
[1] 0.8706681 

> Clust5 <- kmeans( y,°) 


> ClustS$betweenss/clust$totss 
[1] 0.9178001 

> Clust7 <- kmeans( y,7) 

> Clust7$betweenss/clust7$totss 
[1| 0.9381889 





所 以 ,根据 上 面 的 输出 结果 ， 当 聚 类 数 为 7 时 具有 最 高 的 betweenss/totss 比 率 ， 所 以 7 个 聚 类 将 被 视 为 最 佳 数量 。 但 是 ， 如 
果 你 继续 运行 分 析 ， 每 次 都 增加 聚 类 的 数量 ， 你 会 看 到 这 个 比率 也 增加 了 。 所 以 ,我 们 需要 确定 这 种 增长 趋势 变 成 递减 趋势 的 转 
折 操 发 生 在 什么 地 方 。 


5.3 ”支持 同 量 机 


我 们 已 经 看 到 了 一 些 用 直线 来 分 隅 各 个 类 别 的 示例 。 
随 着 模型 的 维度 或 特征 空间 的 增加 ， 可 能 有 许多 不 同 的 线性 和 非 线性 的 方式 来 分 隅 类 别 。 


在 支持 向 量 机 的 用 例 里 ,我 们 首先 使 用 称 为 内 核 的 映射 辫 数 ， 将 数据 变换 到 更 高 维 的 空间 ， 并 且 使 用 最 优 超 平面 来 分 割 这 个 
高 维 空间 。 超 平面 使 用 的 维度 要 比 测量 的 空间 维度 小 1， 也 束 是 说 我 们 要 使 用 直线 来 分 割 二 维 空间 ， 使 用 二 维 平面 来 分 割 三 维 空 
间 。 超 平面 可 以 是 线性 的 ， 也 可 以 是 非 线性 的 。 


超 平面 使 用 广 持 向 量 ， 它 是 用 于 定义 每 个 类 的 边界 的 重要 训练 元 组 。 它 们 是 数据 中 最 天 键 的 点 ， 也 是 广 持 超 平面 定义 的 最 重 
要 的 点 。 超 平面 用 来 确定 不 同类 别 之 间 的 界限 。 一 个 类 通 单 是 一 个 二 元 类 ， 比 如 0 或 1。 类 之 间 的 边界 可 以 宽 ， 也 可 以 容 。 这 个 
特性 是 由 边界 来 衡量 的 ， 这 些 边界 定义 了 对 这 些 类 之 间 进 行距 离 优化 之 后 的 最 大 分 离 。 

下 图 是 一 个 包含 两 个 特征 x 和 y 的 数据 集 的 示例 。 直 线 A 和 直线 B 可 以 被 认为 是 两 个 独立 的 线性 分 类 器 ， 它 们 都 是 将 红色 观测 
值 与 蓝 色 观测 值 分 开 的 判定 规则 。 直 线 A 应 该 优先 选择 ， 因 为 它 具 有 比较 大 的 边界 ， 而 且 决 策 线 和 最 近 的 观察 之 间 的 分 离 值 也 比 
较 大 。 接 近 该 续 的 观测 值 锌 称 为 广 持 向 量 : 





5.3.1 映射 亢 数 的 简单 况 明 


为 了 襄 明 内 核 映射 函数 如 何 帮助 定义 绪 性 边界 ， 请 看 下 面 的 图 ， 看 看 创建 新 的 变量 z 是 如 何 帮助 区 分 多 项 式 阔 数 
t2$Latitude^2*t2$High.Low.Temp^2 在 二 维 空间 中 映射 为 新 的 变换 点 。 内 核 映 射 将 会 在 更 高 的 维度 上 友 生 ， 并 且 将 映射 的 结 


果 反 向 映射 回 原始 空间 : 


#generate a non-linear circle of point 


Fadrus <™— 2 

t2 <—- data.frame (x=radius * cos(seql(0,6,length = 20)),y = radius * 
sin(segq(0, 6, length = 20))) 

names (t2) <- cl("Latitude", "High.Low.Temp") 

plot (t2s5Latitude,t2s$5High.Low.Temp) 


# create a new variable and plot it against on the original points 
t2$z = (t2$Latitude^2*t2$High.Low.Temp’^2) 


plot (t2S5High.Low.Temp,t2s$z) 


o. 
= 
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t25High.Low.Temp 





通常 情况 下 ，SVM 与 维度 非常 高 的 数据 一 起 使 用 。 比 如 说 ， 涉 及 对 象 和 面部 识别 的 应 用 程序 。SVM 的 结果 可 以 非 弟 准确 ， 
但 其 短 板 在 于 可 解释 性 和 性 能 。 由 于 决策 边界 高 度 依 赖 于 用 于 执行 映射 的 内 核 立 数 的 选择 ， 所 以 SVM 也 可 能 过 度 拟 合 数据 。 有 
大 量 的 内 核 冰 数 可 供 选 择 ， 而 内 核 的 选择 不 应 该 基于 最 佳 的 模型 拟 合 。 这 与 使 用 高 阶 多 项 式 消 数 来 拟 合 回归 模型 是 不 一 样 的 。 


5.3.2 ”使 用 SVM 分 析 消 费 者 投诉 数据 

在 这 个 示例 中 ， 我 们 将 使 用 文本 分 类 模型 来 定义 一 个 线性 SVM 模型 。 非 结构 化 文本 数据 是 前 释 SVM 的 完美 方式 ， 因 为 数据 
的 维度 非常 高 

为 了 说 明 SVM 分 类 器 ， 首 先 读 入 一 些 有 关 学 生 贷款 的 消费 者 投诉 数据 。 我 们 将 使 用 两 个 包 ，e1071 和 RTextTools: 


lnstall.packages ("e1071") 
lnstall.packages ("RTextTools™") 
library (e1071) 

library (RTIextTools,) 


我 们 从 CSV 文 件 加 载 数据 开始 。 数 据 框 架 很 简单 ， 包 括 了 一 些 关 于 学 生 贷 款 的 消费 者 叙述 ， 以 及 这 些 投诉 如 何 分 类 的 情况 。 
我 们 的 目标 是 开 友 一 个 SVM 模型 ， 将 未 来 的 客户 投诉 分 为 不 同 的 问题 类 别 : 


data <-— 
read.csv("C:\\PracticalPredictiveAnalytics\\Data\\Consumer Complaints.csv", 
Sep=" 7) 

str(data) 


取 数 据 的 子 集 并 仪 保留 我 们 需要 的 列 : 


data <- subset (data,l1 select=c(Issue,Consumer.complaint .narrative)) 


以 前 50 个 记录 和 视图 为 例 : 


data.samp <- subset (datal[li:50,1, 
select=c(Issue,Consumer.complaint .narratlive),) 
View (data.samp) 


se Conswmerconplainnarative 
| Deang wh ny ender or sevicer | Wa not contacted 4 Vears ater about some prvate 
”2cantrepaymyloan This is a continuation of a previous issue with Citiba... 

lamepaynyloan | Mavientinfomed metharl can afford neay {$1500.. 
| eaing wh ny lender or servicer | My husband lost his jobin XPDOO0C and was une.. 
9 | beaing wh ny ender or sorvioer | Mohela caled me on O00t000S, 1told the rep 1 


4 | Deaing wh my lender or sevicer | n 2008 lanended oO0d Univeroiv in 00c off 0000 
5 | peaing wth ny ender or evicer | reoewed a prvate student oan from O00000X (nm 
elemepymylomn | haveaprvareloan whSalie Mac. caledthem io 
”0cantrepaymyloan | ca n't pay for my private student loans. They have b... 





5.3.3 ”将 非 结 构 化 数据 转换 为 结 爸 化 数据 

请 注意 ， 这 些 投诉 数据 是 非 结构 化 的 格式 。 某 些 文本 挖掘 算法 将 非 结构 化 文本 视 为 “一 袋 词语 ” ， 这 意味 着 在 分 析 文 档 时 ， 
会 忽略 语义 和 语法 ， 将 每 个 词 视 为 自己 的 特征 或 变量 。 

文本 挖掘 中 一 个 重要 的 数据 结构 是 术语 文档 矩阵 (TDM) ， 它 简单 地 表示 每 个 文档 中 出 现 了 哪些 词 . 


create_matrix () 函数 将 为 我 们 创建 这 个 术语 文档 算 阵 。 但 是 ， 在 做 这 件 事 之 前 ， 先 要 清理 数据 ， 并 对 创建 木 语文 档 炬 阵 


施加 一 些 约束 条 件 。 


首先 ， 我 们 不 希望 包括 那些 不 会 给 TDM 增 加 任何 价值 并 且 会 使 它 变 得 非常 大 的 词 ， 如 “the”“an” 或 “it”。 这 些 被 称 为 
停止 词 。 所 以 ， 我 们 将 使 用 removestopwords=TRUE 选 项 来 过 滤 这 些 单词 。 同 样 ， 我 们 也 会 消除 任何 数字 和 标点 符号 ， 只 考虑 
长 度 至 少 为 4 的 单词 。 这 些 选 项 不 是 随意 选择 的 。 文 本 挖 扬 者 可 以 将 这 些 选 项 设置 为 最 佳 值 ， 以 达到 从 数据 中 获取 最 大 价值 的 需 
求 ， 同 时 将 数据 的 大 小 保持 在 最 小 。 在 设置 这 些 选 项 时 ， 领 域 知识 是 非常 有 用 的 。 人 例如， 如果 我 设置 了 minwordLength=5， 那 
么 整 不 会 包含 诸 如 Paid 之 类 的 全 : 

# Create the document term matrix 

dtMatrix < 一 

create matrix(data.sampl""Consumer.complaint .narrative""],minDocFreq = 1， 

removeNumbers=TRUE, 


minWordLength=4, removeStopwords=TRUE, removePunctuation=TRUE, stemWords = 
FALSE) 


TDM 是 针对 文本 挖掘 进行 优化 的 数据 结构 。 随 着 文件 和 单词 数量 的 增加 ， 查 看 难度 可 能 会 增 大 。 不 过 ， 在 我 们 的 示例 中 只 
有 50 个 文档 ， 而 且 由 于 在 开始 时 已 经 对 数据 进行 了 抽样 ， 只 有 有 限 的 一 些 单 词 ， 所 以 可 以 使 用 transpose () 函数 查看 一 个 小 的 
TDM : 


XX = ds.data.frame( t(as.matrix( dtMatrix )) ) 
head (xx) 


请 注意 ， 即 使 在 这 个 小 样本 中 ， 我 们 也 可 以 看 到 文档 中 包含 了 多 个 “access”“able” 和 “ability”。 每 一 列表 示 该 单词 出 
现 的 文档 和 提 及 该 单词 的 次 数 。 每 个 文档 都 对 应 着 一 列 ， 即 使 文档 中 没有 出 现任 何 特定 的 单词 (每 个 单词 对 应 一 行 ) : 





我 们 已 经 看 了 一 个 TDM 样 本 ， 现 在 ， 在 整个 数据 帧 上 面 运行 TDM 计 算 。 


dtMatrix <- create matrix(datal""Consumer.complaint .narrative""],minDocFreq 
= 1], removeNumbers=TRUE, 

minWordLength=4, removeStopwords=TRUE, removePunctuation=TRUE, stemWords = 
FALSE) 


这 次 我 们 不 查看 TDM 本身 (在 这 种 情况 下 ，TDM 将 相当 大 ) ， 让 我 们 通过 加 总 术语 出 现 的 次 数 来 查看 它 的 频率 。 在 滩 动 显 
示 数 据 帧 时 ， 会 看 到 一 个 个 术语 不 断 蹦 出 来 。 我 们 还 要 计算 这 些 术 语 的 组 合 (bi-gram 和 N-gram) ， 这 将 使 你 深入 了 解 客户 投 
诉 的 事情 的 种 类 : 

freq <—- colSums (as .matrix (dtMatrix)) 

length (freqg) 

head (fregq) 


freq.df <—- as.aata.ftrame (freqg) 
View (freqg .df) 


View 命 令 的 输出 将 按 字 母 顺 序 在 TDM 中 显示 以 下 术语 。 使 用 滑动 块 来 滚动 坦 看 列表 : 














RTextTools 包 使 用 容器 来 容纳 不 同 种 类 的 R 对 象 。 我 们 将 创建 一 个 容器 ， 将 其 用 作 持 有 对 象 来 训练 前 500 个 客户 的 评论 : 


container <— create container (dtMatrix, datas$Issue, 
trainSize=1:500,virgin=FALSE) 
str(container) 


容器 创建 完 以 后 ， 丈 可 以 使 用 它 来 训练 许多 不 同类 型 的 模型 。 我 们 将 使 用 具有 线性 内 核 浮 数 的 SVM。 
这 意味 着 我 们 将 使 用 线性 超 平面 将 数据 分 为 高 维 文本 空间 中 的 片段 : 


# train a SVM Model 

model <— train model (container, "“""SVM"™"™, kernel=""linear"", cost=1) 
str (model) 

head (model) 

summary (model,) 


模型 摘要 的 输出 显示 如 下 ; 我 们 创建 了 349 个 支持 向 量 ， 它 们 将 数据 分 为 三 类 : 


对 = 曾 哺 医 - 
svm.default (x = containerl@training_ matrix, y = Contalnerdtralnlnd_codades， 
kernel = kernel, cost = cost, cross = cross, probability = TRUE, 


method = method) 


Parameters: 
SVM-Type: C-classification 
SVM-Kernel: linear 
SOste 1 


gamma: 9.832842e-05 


Number of Support Vectors: 349 


( 189 143 17 ) 
Number of Classes: 本 
Levels: 


Can''t repay my loan Dealing with my lender or servicer Getting a loan 

现在 数据 已 经 训练 完毕 ， 我 们 将 使 用 接 下 来 的 500 个 观测 值 来 做 测试 ， 看 看 模型 执行 的 效果 如 何 。 和 训练 模型 时 所 做 的 一 
样 ， 我 们 将 为 测试 数据 创建 一 个 TDM ， 使 用 的 标签 或 术语 和 为 训练 数据 创建 的 一 样 : 

predictionData <- datasConsumer.complaint .narrative[501:1000] 


# create a prediction document term matrix 
predMatrix <- create _ matrix (predictionData, originalMatrix=dtMatrix) 


# create the corresponding container 
plength = length (predictionData);} 


predictionContainer <- create container (predMatrix, labels=rep (0,plength), 
testSize=1l:plength, virgin=FALSE) 


为 了 查看 模型 执行 的 效果 ， 我 们 将 使 用 分 类 模型 函数 根据 模型 对 测试 数据 集 进行 评分 。 然 后 根据 问题 类 型 和 平均 SVM 概率 
来 聚合 数据 。 正 如 输出 结果 所 显示 的 那样 ， 这 个 模型 在 识别 “Dealing with my lender or servicer” 方面 做 得 最 好 ， 而 不 会 识 


别 “Getting a loan” 。 


# predict 


results <- classify_model (predictionContainer, model) 


head (results,) 


aggregate (results$SVM PROB, by=list (results$SVM LABEL), 


na .rm=TRUE) 


> head (results,) 


输出 显示 在 控制 台中 ， 如 下 所 示 : 


V OO OCODP 


Dealing 
Dealing 
Dealing 
Dealing 
Dealing 
Dealing 


aggregate (results$SVM PROB, by=1ist 


with 
with 
with 
with 
with 
with 


na.rm=TRUE) 


1 


my 
my 
My 
my 
Ny 
my 


lender 
lender 
lender 
lender 
lender 
lender 


Or 
Or 
Or 
Or 
避 正 
Or 


SVM_LABEL 


Servicer 
Servicer 
Servicer 
Servicer 
Servicer 
Servicer 


SEO 


Ca OD CY OO OD 


SVM PROB 
.9436438 
We 
“DLSS99b 
.7611152 
Ry 
.7590674 
results$SVM LABEL), 


XxX 


Can''t repay my loan 0.6211851 


2 Dealing with my lender or servicer 0.69671735 
Getting a loan 0.4779246 


2 


5.4 ”参考 贷 料 


这 一 切 都 为 贷 秋 出 信人 提供 了 有 价值 的 信息 ， 因 为 我 们 现在 可 以 看 到 客户 正在 讨论 什么 类 型 的 主题 : 


FUN=mean, 


e。 AMERICAN STATISTICAL ASSOCIATION RELEASES STATEMENT ON 
STATISTICAL SIGNIFICANCE AND P-VALUES. (2016, March 7). Retrieved from 
ASA news: http://www.amstat .org/asa/files/pdfs/P-ValueStatement .pdf 


Anscombe s quartet. Retrieved from Wikipedia: nttps://en.wikipedia.org/wiki 
/Anscombe%®27s_qgquartet 


Coefficient of determination. Retrieved from Wikipedia:https://en.wik 


ipedia.org/wiki/Coefficient_ of _ determination 


Fader, P. 95. (2001, May-June). Forecasting Repeat Sales at CDNOW. Interfaces, 31 
(May-June), Part 2 of 2, S94-5107. 
FAQ: WHAT ARE PSEUDO R-SOQUAREDS? Retrieved from UCLA Institute for 

Digital Research and Education: hnttp://stats.idre.ucla.edu/other/mult-pkg 


/faq/general/faq—-what—-are-pseudo-r-squareds/ 


5.5 ”本 章 小 结 


面临 的 基础 典型 问题 。 我 们 看 到 ， 对 决策 树 方法 的 深入 了 解 使 你 可 以 快速 开 友 模型 ， 它 们 易于 解释 ， 并 且 是 


在 本 章 中 ， 我 们 又 学 习 了 三 种 算法 ， 这 三 种 算法 和 回归 算法 一 起 ， 形 成 了 核心 的 基本 算法 ， 它 们 可 以 涵盖 大 量 预 测 分 析 师 将 


随机 和 森林 等 更 高 级 拉 0 


术 的 基础 。 然 后 我 们 学 习 了 聚 类 。 聚 类 使 你 可 以 开始 擎 握 相 似 和 不 相似 的 概念 ， 并 引入 距离 度量 。 然 后 ， 我 们 用 对 文 持 向 量 机 的 
基本 介绍 以 及 其 在 文本 挖 据 中 的 应 用 来 结束 本 草 。 


在 下 一 章 中 ， 我 们 将 看 看 一 些 创建 模型 的 示例 ， 这 些 模 型 可 以 预测 客户 会 使 用 一 个 公司 的 服务 多 长 时 间 ， 或 者 预测 患者 友 展 
到 一 定 的 身体 状况 会 有 多 长 时 间 。 


第 6 草 ”使 用 生存 分 析 来 预测 和 分 析 客 尸 流 失 


“在 一 个 无 尽 的 字 宙 里 什么 事 都 可 能 发 生 ，” 和 福特 说 ，“ 即 使 是 生存 。 很 奇怪 但 这 是 真 的 。” 





Douglas Adams ，《 宇 宕 尽头 的 餐馆 》 


生存 分 析 堵 括 了 很 大 汽 围 的 话题 。 下 面 是 本 草 将 要 讨论 的 一 系列 话题 : 
“ 生存 分 析 

` 基于 时 间 的 变量 和 回归 

` 有 信 生 存 对 象 

` 客户 消耗 或 流失 

生存 曲线 


* COX 回 归 


通常 ， 预 测 分 析 问 题 要 根据 对 某 个 客 尸 的 记录 中 重要 事件 的 追 味 来 解决 各 种 情况 ， 并 且 预 测 这 类 事件 什么 时 候 会 友 生 。 和 后 存 
分 析 是 一 种 基于 事件 友 生 时 间 的 概念 的 分 类 形式 。 事 件 友 生 时 间 殊 是 指 在 某 些 事 情 友 生 之 前 经 过 了 多 少 个 时 间 单 位 。 事 件 则 可 以 
是 任何 事情 ， 比 如 一 次 车 祸 、 一 次 证 券 市 场 朋 并, 或 者 一 种 灾难 性 现象 。 


生存 分 析 起 源 于 致命 疾病 患者 的 研究 ， 例 如 癌症 患者 ， 所 以 使 用 了 “生存 ”这 个 术语 。 然 而 ， 这 个 概念 也 可 以 用 于 市 场 应 
用 ， 因 为 你 会 在 某 个 客 己 的 整个 生命 周期 里 面 妃 路 某 个 事件 的 友 生 。 在 这 种 情况 下 ， 事 件 的 时 间 可 能 指 的 是 某 次 客 尸 响应 或 者 购 
买 。 


在 本 章 的 示例 中 要 使 用 一 个 客 尸 流失 的 例子 。 客 尸 流 失 是 一 个 术语 ， 在 讨论 到 一 个 公司 如 何 保持 它 的 客 尸 时 ， 你 会 经 党 听 到 
这 个 术语 。 流 失 是 非常 重要 的 事 ， 因 为 获得 新 客 尸 所 花 的 成 本 通 弟 要 更 高 ， 相 比 之 下 ， 用 折扣 和 促销 来 取悦 和 笼络 已 有 客 己 要 花 
的 成 本 低 些 。 


对 于 流失 分 析 ， 有 很 多 不 同 的 统计 建 模 拉 术 可 供 选 择 ， 包 括 回归 、 决 策 树 、 随 机 森林、 朴素 贝 叶 斯 和 神经 网 络 。 


生存 分 析 在 客 尸 流失 问题 上 是 一 种 很 好 用 的 技术 ， 因 为 它 可 以 针对 性 地 处 理 两 个 万 面 的 市 场 数 据 ， 而 其 他 的 技术 在 这 两 方面 
束 有 些 问题 。 于 是 束 引 出 了 依赖 时 间 的 数据 和 删 失 的 概念 。 


6.1.2 删 失 


一 般 来 说 ， 删 失 这 个 术语 用 来 描述 仅 有 部 分 已 知 的 数据 。 为 什么 说 仅 有 部 分 已 类 ， 因 为 完整 的 数据 是 指 人 在 观察 性 研究 的 开始 
到 结束 之 间 的 所 有 数据 。 它 可 能 是 研究 开始 之 前 或 研究 结束 乙 后 上 友 生 的 信息 。 如 果 所 有 的 信息 都 包含 在 研究 周期 乙 内 ， 则 数据 是 
无 删 失 的 。 不 过 这 种 情况 很 少 友 生 。 


删 失 的 数据 可 能 是 左 侧 删 失 ， 也 可 能 是 右 侧 删 失 。 
左 侧 删 失 
在 市 场 环 境 下 ， 人 研究 通常 开始 于 客户 已 经 存在 时 ， 并 不 知道 这 些 客 户 是 如 何 获 得 的 。 


另外 ， 并 非 所 有 的 客户 开始 时 间 都 是 一 样 的 。 当 一 个 客户 的 开始 时 间 早 于 研究 或 者 分 析 的 时 间 时 ， 有 些 客户 属性 残 可 能 被 看 
作 顽 侧 删 失 。 如 果 你 开始 分 析 的 时 候 融 包含 了 所 有 的 客户 ， 你 融 不 知道 研究 开始 前 友 生 了 哪些 事件 。 而 那些 事件 却 可 能 携 审 有 非 
党 重要 的 信息 ， 例 如 某 个 客 尸 可 能 对 以 前 的 客 尸 政策 非常 不 满 ， 该 政策 是 在 研究 开始 前 执行 过 的 ， 但 是 既然 我 们 不 知道 那些 信 
息 ， 残 无 法 对 此 做 些 什 么 。 在 生存 分 析 中 ， 每 个 人 都 是 基于 事件 来 入 手 的 。 


石 侧 删 失 


研究 也 都 有 一 个 结束 的 时 候 ， 即 使 某 个 客户 在 研究 结束 第 二 天 融 离 开 ， 人 研究 中 还 是 把 它 看 作 活跃 的 客户 。 这 是 另外 一 类 不 会 
人 存在 于 记录 中 的 数据 。 所 以 ， 如 果 一 个 客户 在 研究 结束 乙 后 才 离 开 ， 该 客户 融 被 看 作 右 侧 删 失 。 不 过 ， 右 侧 删 失 也 包括 其 他 一 些 
特殊 情况 ， 例 如 某 个 客 尸 在 研究 结束 时 仍然 活跃 ,或 者 某 个 客户 丢失 了 ， 但 是 原因 是 一 些 跟 研究 中 的 变量 无 关 的 事件 。 


例如 ， 一 个 客户 只 活跃 了 10 天 ， 但 如 果 研 究 在 其 后 很 得 的 时 间 内 结束 了 ， 融 会 仍然 把 访客 户 看 作 活跃 的 ; 再 比如 ， 如 果 一 
个 客户 没有 对 随后 的 调查 问卷 做 出 啊 应 ， 是 因为 客户 的 地 址 改变 了 ， 他 们 也 会 从 研究 里 剔除 出 去 。 这 尝 都 是 目 然 友 生 的 事件 。 


在 下 面 的 图 表 中 ， 黑 色 的 坚 线 表示 一 个 假设 的 流失 研究 的 开始 和 结束 日 期 。 每 一 行 的 第 一 个 点 表示 获得 访客 尸 的 时 间 ， 而 最 
后 一 个 点 表示 该 客户 离开 的 时 | 间 。 只 有 在 周期 开始 和 结束 之 间 可 以 获得 的 数据 才能 用 于 分 析 。 该 图 标 也 用 竖 线 表示 了 某 个 客户 是 
左 侧 删 失 或 者 右 侧 删 失 的 情况 : 


“ 最 上 方 的 横 条 表示 一 个 客户 在 研究 开始 之 后 才 获 得 ， 在 研究 结束 之 前 就 离开 。 所 以 ， 我 们 拥有 这 个 客户 整个 生产 过 程 中 完 
整 的 信息 ， 该 客户 是 无 删 失 的 。 


- 中 间 的 横 条 表示 一 个 客户 是 在 研究 开始 之 前 获得 的 ; 不 过 ， 该 客户 在 研究 结束 之 后 仍然 是 活跃 的 ， 而 在 靠近 右 侧 竖 线 右边 
的 那个 点 ， 表 示 该 客户 在 研究 结束 之 后 很 短 时 间 内 就 离开 。 然 而 ， 这 个 流失 动作 不 会 反映 在 数据 里 ， 所 以 这 是 一 个 右 侧 删 失 的 例 
J 


` 最 下 方 的 横 条 表示 一 个 客户 在 研究 开始 之 前 获得 ， 而 开始 日 期 是 未 知 的 。 这 是 左 侧 删 失 观 察 的 例子 : 


客户 流失 


和 万 “ 最 终 ”流失 


@ ® 
右 侧 删 失 


客户 流失 
® 


左 侧 删 失 





6.2 ”客户 满意 度数 据 集 


本 草 我 们 要 查看 一 个 数据 集 ， 里 面 的 虚拟 客 己 都 订阅 了 一 个 在 线 服 务 ， 并 且 都 在 研究 开始 之 前 响应 了 一 个 客户 满意 度 调查 问 
者 。 这 个 调理 随后 会 匹配 到 业务 以 及 统计 数据 ， 以 便 产 生 一 个 简单 的 分 析 数 据 集 ， 其 中 包含 一 个 事件 变量 (流失 ) ， 它 代表 着 客 
户 是 否 取消 了 对 该 服务 的 订阅 。 我 们 还 要 加 入 一 些 业务 数据 (上 个 月 的 购买 数量 ) ， 还 有 一 些 统计 数据 (性 别 、 教 育 程度 ) ， 以 
及 另 一 个 在 研究 开始 前 进行 的 总 体 满 意 度 调理 数据 : 





变量 接 ” 述 
Monthly.Charges 之 前 所 有 购买 的 平均 美元 数值 
Purch.last.Month 在 研究 开始 前 的 一 个 月 购买 的 数量 
Satisfaction 用 李 克 特 量 表 进行 的 对 服务 的 总 体 满 意 度 调查 
Satisfaction2 后 来 的 男 一 次 满意 度 调查 
Gender 男性 或 女性 
Education Level 本 科 /硕士 /博士 
Churn 1 代表 客户 在 研究 结束 前 离开 ; 0 代表 客户 在 研究 结束 时 仍然 活跃 


6.2.2 创建 矩阵 图 表 


如 果 我 们 想 要 更 进一步 探索 流失 客户 的 保有 期 ， 还 要 建立 一 个 矩阵 图 表 ， 显 示 保 有 期 和 我 们 选择 的 其 他 变量 之 间 的 关联 。 人 在 
这 个 示例 中 ， 要 使 用 ggpairs () 函数 来 绘制 tenure、gender、satisfaction 和 monthly charges 这 几 个 变量 之 间 的 和 矩 阵 图 表 : 


ERCHUENY 

install.packages ("GGally") 

library (GGally,) 

library (gg9plot2) 

ggpairs (xchurn,c(3,4,7,8),1lower=list (combo=wrap ("facethist",binwidth=30))) 


从 图 表 中 我 们 可 以 看 到 ， 男 性 客户 流失 得 比 女 性 客 尸 快 。 从 算 阵 图 表 的 第 1 行 第 3 列 中 可 以 看 出 这 点 。 请 注意 ， 这 里 产生 的 
图 是 箱 线 图 ， 因 为 此 处 比较 了 一 个 连续 变量 (tenure) 和 一 个 类 别 变量 (性 别 ) 。 和 成 对 的 图 一 样 ， 和 矩阵 图 表 是 一 种 快速 但 看 
单 变 量 分 布 情况 的 好 方法 。 单 变量 自身 行列 交叉 的 那 条 对 角 线 上 ， 连 续 地 用 典型 方法 显示 了 该 变量 的 密度 图 形 。 例 如 第 4 行 第 4 
列 是 每 月 费用 ， 清 楚 地 表现 出 正人 态 分 布 ， 而 且 每 月 费用 的 平均 值 是 240 美 元 。 对 计数 变量 ， 典 型 地 使 用 了 直方 图 来 显示 。 不 过 ， 
也 可 以 改变 默认 的 表现 方式 ， 参 见 ggpairs () 函数 的 相 天 文档 : 
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6.4 ”通过 创建 生存 对 象 来 设置 阶段 


用 R 语 言 来 编写 生存 分 析 ， 通 常 开始 的 时 候 要 用 Surv () 函数 创建 一 个 生存 对 象 。 生 存 对 象 包含 的 信息 比 单 规 的 数据 帧 要 多 
一 些 。 生 存 对 象 的 用 途 是 追踪 每 个 观察 的 时 间 和 事件 状态 (0 或 者 1) 。 它 也 用 来 指定 哪个 变量 是 响应 变量 ( 因 变 量 ) 。 


当 定 义 一 个 生存 对 象 时 ， 最 少 需 要 提供 一 个 时 间 变 量 和 一 个 事件 。 在 这 里 的 示例 中 ， 将 会 使 用 保有 期 时 | 间 (Xtenure2) 作 
为 时 间 变 量 ， 还 用 一 个 公式 来 指定 那个 用 来 定义 生存 对 象 的 事件 。 在 本 示例 中 用 的 公式 是 Churn==1， 因 为 这 意味 着 该 客户 在 那 
个 月 流失 了 : 

install.packages ("survival") 


library (survival) 
ChurnStudy$SurvOb] <- with (ChurnStudy, Surv (Xtenure2, Churn == 1)) 


正如 前 面 的 章节 中 提 到 的 ， 在 创建 了 一 个 新 的 数据 帧 之 后 ， 我 总 是 喜欢 执行 一 下 str () 命令 ， 只 为 确保 结果 和 预期 的 一 
样 : 
> str {tChurnStudyo suevoB) 
Surv [1:1488, 1:2] 7 9 6 11+ 11 1+ 4 12 12 3 
一 attr{(*, "dimnames")=L1ist of 2 
3 ULL 


,六 EhE [le2l time™ Vatatis” 
一 attr(*, "type")= chr "right™" 


在 前 面 的 输出 中 我 们 可 以 看 到 ， 所 创建 的 survival 对 象 中 含有 1488 行 ， 而 它 的 两 个 列 分 别 是 时 间 和 状态 。 请 注意 ， 在 月 份 数 
后 面 的 那个 + 号 ， 它 表示 这 个 成 员 在 研究 周期 结束 时 是 右 侧 删 失 的 ， 也 就 是 说 ,该 订阅 者 仍然 活跃 ,没有 流失 。 而 
attr (*,，"type") 这 一 行 表示 这 个 模型 包含 右 侧 删 失 。 


一 旦 survival 对 象 创建 完成 ， 就 可 以 在 它 上 面 执行 一 些 初 步 的 操作 。 在 控制 台中 输入 下 面 这 行 命令 ， 查 看 最 开始 的 几 个 元 
素 : 


> head (ChurnStudy$SurvOb]j) 
[1] 7 9 6 11+ 11 1+ 


还 可 以 把 生存 对 象 看 作 一 个 和 矩阵， 并 显示 其 数据 的 一 个 子 集 。 此 处 要 显示 开始 的 10 个 观察 : 


和 
time status 


[1,] 7 | 
[2，] 9 1 
[3，] 6 1 
[4, | 11 0 
[5，] 11 1 
[6，] 1 0 
[7，] 4 
[8，] 12 
[ 9,] 12 1 
的 3 | 


还 可 以 根据 时 间 和 事件 把 数据 列 成 表 。 我 们 可 以 看 到 ， 在 研究 周期 结束 时 ， 大 约 有 50% 的 客户 已 经 济 失 了 : 


LETTEROD LT llaurnotuav i Birvor 1 2] 


U 

4143 册 呈 

2 10 52 

3 17 34 

4 1 20 
2 :和 
6 47 42 
7 16 60 
8 102 068 
> 4b 村 
I LY 
1 Lu U3 
2 


如 果 你 更 喜欢 用 列 的 名 字 而 不 是 列 的 成 员 来 工作 ， 可 以 尝试 先 把 生存 对 象 转换 成 数据 帧 。 这 样 会 产生 和 示例 中 一 样 的 结 
但 是 你 能 够 使 用 列 的 名 字 代 蔡 索 引 值 。 这 种 方法 在 引用 数量 很 大 的 列 时 会 更 加 方便 : 


SUrv.df <= data. frame (ChurnotudvyoSurvob [ly lz|) 
table (Surv.dfS$time, Surv.df$status) 


让 我 们 来 坛 看 总 结 一 下 。summary () 函数 显示 平均 的 保有 期 大 约 是 8.2 个 月 。 


> summary (ChurnStudy$SurvOb]) 


time status 
M1in. .ae Min. -和 
Lt le slUD Lot CU Sh UU 
Median 9 .000 Median :0.000 
Mean : 8.474 Mean :0.495 
Ea. Oia TLLeUUD Sra OH: TLV 
Max. a 人 有 Max. - 本 人 


在 创建 生存 对 象 时 ， 是 用 原始 的 ChurnStudy 数 据 帧 的 一 部 分 来 创建 它 的 。 如 果 想 要 查看 附加 了 生存 对 象 的 完整 数据 帧 ， 可 
以 使 用 View (ChurnStudy) 命令 。 


SurvObj 时 间 是 根据 Xtenure2 时 间 确 定 的。 不 过 ， 在 数字 后 面 的 + 号 表示 该 客户 企 研 究 周期 结束 时 仍然 是 活跃 的 。 


请 注意 ， 


6.5” 检 碍 生存 曲 续 


如 果 想 要 查看 不 同 的 单个 因子 对 于 生存 率 的 影响 ， 通 党 使 用 Kaplan Meir 生 存 曲 线 是 一 个 很 好 的 切入 点 ， 因 为 它们 很 容易 构 
建 和 可 视 化 。 随 后 ， 会 在 一 个 cox 回 归 的 示例 中 演示 如 何 检 枉 多 个 因子 。 


Kaplan Meir (KM) 曲线 通 弟 是 一 些 阶 路 消 数 ， 它 在 一 些 离散 的 时 间 点 上 评估 survival 对 象 或 者 风险 率 。 和 后 存 率 的 计算 是 通 
过 计算 出 成 功 生 存 (依然 活路 的) 的 客户 数量 除 以 有 风险 的 客户 数量 得 到 的 。 有 风险 的 客户 数量 (分 母 ) 排除 了 所 有 已 经 流失 的 


客户， 或 者 在 任何 特殊 的 时 间 点 还 没有 达到 保有 期 的 客 尸 。 


举例 来 说 ， 如 果 用 table 展 示 ChurnStudy 中 活跃 的 月 份 数 (Xtenure2) ， 可 以 看 到 ， 从 第 一 个 月 开始 ， 有 44 个 成 员 的 存活 
率 用 (1984-19) 来 计算 (在 1984 年 1 月 之 后 剩余 的 数量 ) : 


table (ChurnStudysXtenure2,ChurnStudysChurn) 


0 1 
] a 9 
2 J 0 
3 24 45 
4 > 和 
2 30 50 
6 63 61 
LY 3 
8 124 98 
3 上 3 了 二 注 
1 
11 144 129 
12 159 46 


构建 一 个 KM 曲线 需要 以 下 三 个 元 素 : 


一 个 连续 的 时 间 ， 仅 是 从 研究 开始 时 的 时 间 间 隔 (月 ,日 ， 年 ) 。 这 对 于 客户 保留 度 的 意义 是 ， 如 果 研 究 是 从 一 个 月 前 开 
始 的 ， 那 么 一 个 5 年 前 就 开始 订阅 的 人 和 1 个 月 前 开始 订阅 的 人 都 被 同等 对 待 。 之 前 的 5 年 都 看 作 删 失 的 信息 。 


:一 个 事件 标志 ， 一 般 是 0 或 者 1， 用 于 指出 在 上 述 时 间 周 期 中 是 否 发 生 了 该 事件 。 一 个 客户 会 有 多 个 事件 标志 ， 对 应 到 研究 
的 每 个 月 份 。 


:一 个 分 类 或 者 分 组 变量 。 这 通常 是 一 个 单 变 量 。 
随后 用 survfit () 立 数 丈 可 以 生成 KM 生存 曲线 ， 该 消 数 在 survival 包 里 面 。 


可 以 从 检查 整个 数据 集 的 生存 曲线 入 手 ， 不 进行 分 组 。 在 这 种 情况 下 ， 使 用 一 个 unity 操 作 符 或 者 公式 符号 的 1 来 指定 整个 数 


据 集 是 一 个 分 组 : 


km <— survfit (SurvOb] ~ 1, data = ChurnSstudy, conf .type = "1]og-l1og") 
plot (km col="'"red') 
title(main = "Survival Curve Baseline") 


dev.copy (Jpeg, 'Ch5 - Survival Plot Baseline.Jpg'); dev.off!/() 


该 曲线 显示 ， 在 研究 开始 的 时 候 所 有 的 成 员 都 是 活路 的 。 随 着 成 员 逐 渐 离 开 ， 绘 出 的 图 形 显示 了 单 向 的 数值 下 降 。 你 可 以 看 
到 ， 每 一 个 估计 值 的 方差 〈 用 估计 值 的 上 方 和 下 方 的 虚线 表示 ) 随 着 时 | 间 周 期 越 来 越 长 ， 变 得 越 来 越 大 。 这 是 因为 随 着 客 忆 数量 
减少 ， 样 本 的 尺寸 也 变 小 了 ， 而 估计 值 的 准确 性 也 变 低 了 。 对 于 基准 线 估计 值 ， 我 们 可 以 看 到 在 6 个 月 的 时 候 ， (理论 上 的 ) 估 
计 什 显示， 大约 还 有 86% 的 客户 : 





0 2 4 656 g “10 12 


用 图 表 可 以 很 直观 地 观察 到 重大 的 客户 流失 发 生 在 什么 地 方 ， 但 是 你 还 是 想 要 查看 底层 的 数据 。 


首先 ， 查 看 一 下 summary (km) 是 如 何 摘 述 survival 对 象 的 。 其 输出 和 summary 对 象 对 普通 的 R 数 据 帧 的 摘 述 会 有 一 些 不 
同 之 处 : 
输出 中 首先 列举 了 用 来 产生 km 生存 对 象 的 函数 调用 : 
> summary (km) 
Call: survfit (formula = SurvOb] ~ 1, data = ChurnStudy, conf.type = 


te hie A 


. 接 下 来 ， 输 出 中 列举 了 图 表 中 绘制 的 数据 点 ， 以 及 在 这 些 数 据点 上 的 生存 概率 和 95% 置 信 区 间 : 


time n.risk n.event survival std.err lower 95% CI upper 95% CI 


由 1488 二 US We Uwv983 0.994 
2 1455 D2 US DVSd3 0.943 0.964 
3 da 34 Qa93L 0 DMG60 Umno 0.943 
- 1] 342 ZU oT G00720 UA U .930 
dd 3 UBI0 QD0520 Ura 0» 20D 
6 1245 42 0.860 0.00914 0.841 Us SL 
7 i 60 DB DWLUD32 0.794 0.835 
8 1020 68 Getol Vb Us 38 D283 
3 850 89 0.681 0.01307 和 0 79% 
10 665 jg 0.564 0.01472 0.534 pe 
二 六 435 105 0.428 0.01608 9 0.459 
La 2 4 2 ed 了 BE 0.184 0.248 


通过 观察 生存 百分比 ， 你 可 以 看 出 ， 生 和 存 率 呈现 逐 新 加 快 的 单 向 下 降 趋 势 。 这 总 味 着 ， 在 每 个 连续 时 间 间 隔 中 的 生存 概率 都 
比 上 一 个 时 期 降低 了 。 


你 还 可 以 计算 出 给 定 月 份 的 生存 率 ， 访 客户 当时 在 保留 状态 下 。 例 如 ， 第 12 个 月 的 生存 率 是 48% (146 个 流失 的 客 尸 /305 个 
面临 流失 风险 的 客户 ) 。 


6.5.1 ”更 好 的 绘 医 


还 有 另外 一 个 函数 可 供 使 用 ， 它 可 以 画 出 更 好 的 图 形 ， 并 且 比 通用 的 绘图 函数 要 多 一 些 可 定制 性 。 这 就 是 rms 库 中 的 
survplot () 函数 。 由 于 我 们 可 能 想 要 用 几 种 不 同方 法 和 参数 来 前 述 这 个 函数 ， 因 此 我 们 要 把 一 些 本 地 卫 数 封 闻 成 一 个 新 的 闻 
数 ， 名 叫 Plotsurv () ， 它 允许 我 们 定制 一 些 绘图 。 


LLOEArY CEMSY) 
plotsurv <- function(x,y,zZz=c('bars'),zz=FALSE)I{ 
objJNpsurv <- npsurv(formula = Surv (Xtenure2,Churn ==1) ~ x, data = 
ChurnStudy) 
class (ob]Npsuryv) 
survplot (objNpsurv,col=c('green','red', 'blue','yellow', 'orange', 'purple'), 
label.curves=list (keys=y),xlab='Months',conf=z,conf.int=.95,n.risk=zz) 
mtext (date(),side=3,1ine=0,ad]j=1, cex=.5) 


要 再 次 调用 基准 线 绘图 水 数 ， 不 过 这 次 要 把 有 风险 的 成 员 的 数量 包谷 进去 ， 这 些 数 量 可 以 在 水 平时 间 访 问 的 项 喘 找 到 。 可 以 
验证 一 下 ， 这 些 数 量 与 早 些 时 候 运 行 的 ummary (km) 销 数 相 吻 合 。 这 些 数 量 指 的 是 在 每 个 指定 的 时 间 周 期 结束 的 时 候 仍 然 活 
跃 的 订阅 者 的 数量 。 在 每 个 标记 点 ， 置 信 区 间 也 祝 蔡 换 为 得 的 错误 直 条 : 


#baseline plot again 

par (mfrow=c (1,1)) 

Churnstudyoeunity <— 1 
lotsurvtiChnurnstudv ounityv ool) -Cl DSS TRUE) 


title(main = "1 KM Curve with Bands and number at risk") 
dev.copy (Jpeg, 'Ch5 - baseline again.Jpg’),; 
dev .ott () 


现在 产生 了 一 个 更 简单 的 图 形 ， 它 包含 更 多 的 数据 ， 而 且 看 起 来 更 易 懂 : 


包含 错误 查找 和 有 风险 成 员 数 的 1km 曲线 
Man Sep 04 14: 38: 530 2016 


0.0 1488 1453 1393 1342 1313 1245 1020 830 663 433 223 
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6.5.2 对比 生存 曲张 


生存 曲线 基准 线 本 身 是 有 用 的 ， 但 是 最 有 意义 的 分 析 来 自 对 不 同 的 分 组 生成 的 不 同 曲线 之 间 的 比较 。 这 样 ， 你 可 以 看 出 在 什 
么 地 方 需要 一 些 干预 。 为 了 生成 性 别 的 曲线 ， 要 再 次 使 用 survfit () 函数 ， 并 在 ~ 操作 符 的 右 侧 指定 XGender 参 数 。 这 段 代码 
会 为 男性 和 女性 分 别 生 成 一 条 曲线 : 


km.gender <— survfit (SurvOb] ~ Xgender, data = ChurnStudy, conf.type = 


"Tog—=] G0 ™) 

km.gender 

plot (km.gender, col=c('red','blue') ,lty=1:2) 
legend('left', col=c('red', 'blue') ,c('F', 'M'), lty=1:2) 
title(main = "Survival Curves by Gender'") 


dev.copy (Jpeg, 'Ch5 - Survival Plot by Gender.Jpg'); dev.off!() 


此 处 绘制 的 两 条 曲线 表明 ， 在 所 有 的 时 间 周 期 内 ， 女 性 客 尸 更 有 可 能 保留 下 来 ， 这 给 出 的 建议 是 ， 在 早期 有 用 的 营销 激励 应 
该 以 男性 为 目标 : 


各 性 别 的 生存 曲线 
1.0 =- = 
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6.5.3 ”检验 生存 曲线 之 间 的 性 别 差 异 


在 检查 生存 曲线 时 ， 很 明显 在 每 个 时 间 周 期 ， 女 性 都 比 男 性 的 生存 时 间 要 长 。 不 过 ， 我 们 是 单纯 地 通过 视觉 观察 来 做 出 这 个 
判断 的 。 很 多 时 候 ， 结 果 并 不 会 这 么 明显 。 即 使 结果 很 明显 ， 最 好 的 做 法 还 是 为 此 构建 一 个 统计 假设 检验 。 我 们 将 要 使 用 时 序 检 
验 ， 在 R 语 言 的 survdiff () 国 数 里 面 实 现 了 这 种 检验 。 


该 函数 的 输出 显示 了 与 检验 相关 的 卡 万 统计 数据 ， 这 些 数 据 会 展示 两 个 曲线 之 间 任 何 显著 的 磊 异 ， 以 及 相关 的 p 值 。 
对 于 性 别 ， 在 0.01 水 平 上 有 一 处 显 闭 的 奢 寞 ， 比 临界 值 小 很 多 的 低 p 值 显示 了 这 一 点: 


> survdiff (SurvOb] ~ Xgender, data = ChurnStudy) 


Cz 
survdiff (formula = SurvOb] ~ Xgender, data = ChurnSsStudy) 


N Observed Expected (0O-E)^2/E (O-E)^2/V 
Xgender=F 341 1 3 Ly 9.24 14.5 
Xgender=M 1147 614 D74 YY 14.5 


Chisgq= 14.D on 1 degrees of freedom, p= 0.000143 


6.5.4 检验 牛仔 曲线 乙 间 的 教育 程度 差异 





现在 要 运行 survdiff () 函数 检验 教育 程度 的 差异 : 

> survdiff (SurvOb] ~ Xeducation, data = ChurnStudy) 

Call: 

survdiff (formula = SurvOb] ~ Xeducation, data = ChurnStudy) 


N Observed Expected (0O-E)^2/E (O-E)^2/V 


Xeducation=Bachelor's Degree 1186 YZ 594.8 Wa ee 
Xeducation=Doctorate Degree 88 45 45.4 0.00301 0.00382 
Xeducation=Master's Degree 214 114 0 0.08896 0.12417 


Chisq= 0.1 on 2 degrees of freedom, p= 0.94 
现在 看 看 p 值 。 卡 方 检验 的 p 值 是 0.94。 这 就 意味 着 ， 我 们 不 能 认为 在 教育 程度 生存 曲线 之 间 和 存在 着 显著 的 差异 ; 


这 也 建议 我 们 要 在 下 面 的 绘图 中 做 更 仔细 的 观察 。 可 以 看 到 ， 很 多 时 候 ， 这 三 个 教育 程度 分 组 都 在 点 估计 值 的 一 个 标准 差 之 
内 。 在 置信 区 | 间 之 间 互 相交 蔷 的 数据 点 表示 ， 它 们 表示 的 意义 之 间 并 无 足够 的 分 离 性 。 


# 
ploteurv(iCnurnotudy sXednCatlion 人 和) Cl Dars'y) 
title(main = "3 KM Curve Education") 


dev.copy (JpPeg, "Ch5 - 3 KM Curve Education.Jpg'); dev.off'/() 


时 间 12 (在 研究 结束 时 ) 可 以 完美 地 况 明 这 一 点 。 这 三 个 置信 区 间 包 含 一 个 很 大 的 样品 ， 这 个 样品 里 有 三 个 教育 程度 的 生 
人 存 概率 ， 所 以 很 难 辨别 出 任何 差异 。 作 为 后 续 ， 可 以 把 硕士 和 博士 学 位 合并 成 一 个 局 等 学 位 分 类 ， 然 后 衡量 两 个 而 不 是 三 个 分 类 
之 同 的 差异 ， 这 也 是 有 意义 的 : 


3 KM 生存 曲线 : 教育 程度 
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6.5.5 ”绘制 客户 满意 度 和 服务 电话 数量 曲线 


根据 客户 满意 度 和 服务 电话 数量 这 两 个 变量 ， 还 要 生成 两 条 曲线 : 


par (mfrow=c (1,1)),) 
DloEeturvtbnrnotudviaatiotacotionCGll DCDare”}) 

title(main = "2 KM Curve Satisfaction")/ 

dev.copy (Jpeg, "Ch5 - 2 KM Curve Satisfaction.Jpg'); dev.off() 
plotsurv(as.factor (ChurnStudys$sXservice.calls),c(1:6),c('none')) 
dev.copy (JPpeg, 'Ch5 ~- 4 KM Curve Service Calls.]Jpg');} 

title(main = "4 KM Curve Service Calls") 


dev.off() 


这 些 曲线 的 图 形 显示 在 输出 窗口 上 ， 然 后 又 拷贝 到 前 面 的 代码 指定 的 文件 中 : 


4 KM 曲线 : 服务 电话 
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用 户 练 习 : 绘制 前 面 所 说 的 那些 曲线 ， 用 survdiff () 函数 运行 时 序 检 验 ， 看 看 有 没有 显著 的 差异 。 


survdiff (SurvOb] ~ Xsatisfaction, data = ChurnStudy) 
survdiff (SurvOb] ~ Xpurch.last.month, data = ChurnSsStudy) 
survdiff (SurvOb] ~ Xservice.calls, data = ChurnStudy) 


6.5.6 ”添加 性 别 来 改进 教育 程度 生 行 曲线 


正如 我 们 已 经 看 到 的 ， 我 们 不 能 这 教育 程度 之 间 仓 企 背 显著 的 差异 。 很 多 时 候 ， 加 入 其 他 的 协 变量 ， 然 后 分 析 相 互 作用 的 影 
啊 ， 可 以 揭示 重要 性 。 如 果 我 们 想 燥 道 加 上 性 别 因素 教育 程度 乙 间 会 不 会 呈现 差异 ， 可 以 创建 一 个 新 的 变量 ， 里 面包 合 各 个 教育 
程度 和 各 个 性 别 的 组 合 对 应 的 虚设 变量 。 


: 首先 要 使 用 intetaction () 函数 创建 一 个 新 的 变量 (factorC) 。 然 后 使 用 新 的 plotsutv () 函数 基于 所 有 的 教育 和 性 别 的 相 
互 影响 来 绘制 曲线 。 


. 接着 ， 使 用 survdiff () 有 函数 来 检验 这 些 影 响 的 重要 性 : 


#create a new factor with interaction between education and gender 
#first check the number of satisfaction levels 


加 

levels (ChurnStudys$sXsatisfaction) 

#create and store it in the data frame 

并 

CharznstuavysSstactorc <- with (ChurnSstudy, interaction (Xeducation, 
Xgender)) 

三 


现在 ,绘制 各 个 水 平 的 生存 曲线 : 教育 程度 (三 个 水 平 ) 和 性 别 (两 个 水 平 ) 。 这 样 ， 总 共有 6 个 图 表 。 不 过 ， 不 是 所 有 的 


组 合 都 能 生存 到 月 份 12， 因 为 到 最 后 只 有 5 个 水 平 了 。 


Blotsurv (ChurnstudvoftactorC 全 (1 和 全 人 none"}y) 
title(main = "4 KM Curve Gender*Education") 

并 

dev.copy (Jpeg, 'Ch5 - 4 KM Curve Gender Education.Jpg'),; 
dev.off() 


4 KM 曲线 : 性 别 女 教育 程度 
Sun Sep 04 16 03: 35 2016 


X= 学 士 学 历 
X= 博士 学 历 
义 = 倾 士 学 历 
X= 学 士 学 历 
X= 博士 学 历 
X= 倾 士 学 历 





0.0 


0.0 12 24 3.6 48 6.0 7.2 8.4 9.6 12.0 
月 份 数 


调用 survdiff () 阔 数 查看 在 各 个 曲线 之 | 间 有 没有 显著 差异 。 下 面 是 survdiff () 阔 数 的 输出 : 


options (scipen=3) 

survdiff (SurvOb] ~ ChurnSstudys$factorC, data = ChurnStudy) 

# 

# 

> survdiff (SurvOb] ~ ChurnStudysfactorC, data = ChurnStudy) 

Ga 

survdiff (formula = SurvOb] ~ ChurnStudys$factorC, data = ChurnStudy) 


N Observed Expected (0O-E)^2/E (O-E)^2/V 


ChurnSstudy$factorC=Bachelor's Degree.F 279 111 150 .49 10.361225 
Lob26 
ChurnStudys$sfactorC=Doctorate Degree.F pA 8 Baa UUSee 
DOUo0S0 
ChurnStudysfactorC=Master's Degree.F 40 2 19.B1 Ws0344061 
0.041049 
ChurnSstudysfactorC=Bachelor's Degree.M 907 481 444.28 3.034267 
8.884136 
ChurnStudys$factorC=Doctorate Degree.M 66 a 37.16 0.000714 
0.000903 
ChurnSstudysfactorC=Master's Degree.M 174 96 92.05 dQ.1689101 
D2302U0 


Chisg= 16.3 on 5 degrees of freedom, p= 0.00597 


卡 方 检验 一 起 检查 了 所 有 的 分 组 ， 而 且 会 用 显著 性 显示 是 人 否 其 中 有 一 个 组 呈现 出 与 其 他 组 的 差异 。 为 了 看 看 哪个 特别 的 组 有 
不 一 样 的 行为 ， 需 要 检查 观察 值 的 列 和 期 望 值 的 列 ， 以 及 在 最 后 两 列 里 面 的 平方 误 秦 项 。 如 果 数 值 较 高 ， 说 明 观 察 值 偏 离 期 望 值 
较 多 。 在 检查 输出 时 ， 我 们 看 到 有 两 个 交互 作用 影响 看 起 来 好 像 是 比较 显著 的 组 : 


. 女性 和 大 学 学 历 。 我 们 期 望 的 是 150 个 流失 者 ,但 观察 到 的 是 111 个 。 这 个 组 的 流失 人 数 相 对 其 他 的 组 是 比较 少 的。 

` 男性 和 博士 学 历 。 观 察 到 的 生存 率 比 期 望 的 生存 率 要 高 。 

早 些 时 候 ， 我 们 看 到 过 大 学 学 历 本 身 并 没有 呈现 很 大 的 差异 。 但 是 加 上 性 别 之 后， 融 可 以 识别 出 可 以 作为 目标 的 一 群 人 。 
保存 命令 历史 : 


savehistory (file="chS interaction plot km Curves .Lod") 


6.5.7 ”把 服务 电话 转换 成 二 进 制 变量 


那些 具有 较 多 的 级 别 的 变量 通 弟 都 比较 难以 管理 ， 即 使 它们 的 曲线 显示 出 了 统计 学 的 显著 差异 。 这 是 因为 分 组 比较 小 的 绿 
故 。 与 其 努力 一 次 把 所 有 的 分 组 都 分 析 完 ， 不 如 务 找 出 一 个 分 割 点 把 变量 变 成 一 种 二 进 制 的 输出 。 


例如 ， 在 服务 电话 (从 1 ~ 5 个 ) 上 面 运行 survdiff () 函数 ， 各 个 生存 曲线 之 间 显 示 出 显著 差异 : 


> survdiff (SurvOb] ~ Xservice.calls, data = ChurnSsStudy) 


Cm Ls 

survdiff (formula = SurvOb] ~ Xservice.calls, data = ChurnStudy) 
N Observed Expected (0O-E)“^2/E (O 

Ey EY 

Xservice.calls=0 1103 yy Sd Gl -A 32 

Xservice.calls=1 222 154 Lioe ly 上 和 1 本 本 六 16.992 

Xservice.calls=2 “3 pA Ep ZsB88 Ek 

Xservice.calls=3 51 3 28.43 0.734 O23 

Xservice.calls=4 47 31 ds U985 由 之 二 > 

Xservice.calls=5 7 3 4.26 US 0 .448 


Chisgq= 23.3 on 5 degrees of freedom, p= 0.000301 
最 后 两 列 给 出 了 卡 方 值 ， 而 你 可 以 看 出 多 数 的 较 高 数值 对 应 着 较 低 的 服务 电话 次 数 。 看 起 来 在 Xservice.calls 1 和 2 之 前 有 一 
个 列队 ， 可 以 把 它 当 作 一 个 上 自然 的 断 点 。 


于 是 ， 可 以 构想 出 一 个 假设 ， 即 较 低 和 较 高 的 服务 电话 次 数 之 间 会 有 差异 ; 可 以 创建 一 个 二 进 制 变量 ,简单 地 指定 有 或 没有 
服务 电话 。 

可 以 绘制 出 结果 ， 并 使 用 时 序 检验 再 次 检验 是 否 有 差异 : 

ChurnStudys$scalled.binary <- as.factor(ifelse (ChurnStudy$sXservice.calls 

==0, "NONE"', "CALLED")),) 


survdiff (SurvOb ™ Churnstudvesecalled.binarv, data = ChurnSstudv) 
plotsurv (ChurnSstudvyscalled.binarv,c(1l:2})yC('none')) 


title(main = "5 KM Curve Called") 
dev.copy (Jpeg,'Ch5 - 5 KM Curve Called.jJpg'); dev.off'() 


survdiff (SurvOb] ~ ChurnStudy$called.binary, data = ChurnStudy) 


此 处 指定 调用 plotsurv 遂 数 生 成 以 下 图 表 : 
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6.5.8 ”检验 打 过 和 没 打 过 服务 电话 的 客户 


调用 survdiff () 函数 产生 了 如 下 卡 方 检验 : 


> survdiff (Survobj ~ ChurnStudy$called.binary, data = ChurnSstudy) 
可 = 机 辆 本 
survdiff (formula = Survobj ~ ChurnStudys$called.binary, data = ChurnStudy) 


N Observed Expected (0O-E)^2/E (O-E)^2/V 
ChurnStudys$called.binary=CALLED 385 244 208 6.18 二 
ChurnsStuaqyScalledq.binary=NONE 1103 S07 543 | 1 Os 


Chisq= 10.3 on 1 degrees of freedom, p= 0.00131 


这 表明 ， 在 打 过 服务 电话 和 没 打 过 服务 电话 的 客户 乙 间 有 清晰 的 差异 ， 而 且说 明了 ， 对 打 过 服务 电话 的 客户 可 能 需要 一 个 干 


预计 划 ， 以 便于 识别 可 能 友 生 的 流失 。 


6.6 cox 回归 建 模 


KM 检验 在 很 多 情况 下 是 令 人 满意 的 ， 尤 其 是 在 切 步 分 析 中 。 然 而 ，KM 检 验 是 无 参数 的 ， 比 起 有 参数 的 检验 ， 其 能 力 要 弱 
一 些 。cox 回 归 扩 展 了 KM 检验 ， 使 之 变 成 一 种 有 参数 的 回归 类 型 框架 ， 以 期 获得 更 多 的 能 力 。 如 果 需 要 在 建 模 中 使 用 多 个 目 变 
量 ， 而 且 其 中 有 些 变 量 是 连续 的 ， 那 么 比 起 KM 检验 来 说 ， 进 行 cox 比 例 失效 建 模 有 更 多 的 好 处 。 


6.6.2 ”检查 cox 回 归 的 输出 
因为 cox 回 归 本 质 上 是 一 种 改进 的 逻辑 回归 ， 所 以 其 模型 中 的 系数 忌 是 对 数 形式 的 。 为 了 把 系数 转换 成 似 然 比 ， 需 要 使 用 指 
数 。 这 也 是 summary 输 出 的 一 部 分 。 


站 先 ， 请 查看 在 exp (coef) 这 一 列 里 面 取 品 的 系数 的 值 。 如 果 系 数 稍微 比 1 大 一 操 ， 表 示 这 个 客户 倾向 于 流失 ， 而 不 是 留 
下 。 系 数 伯 离 1 越 多 ， 表 示 单 万 面 的 倾向 性 越 强 。 


模型 结果 表示 gender (males) 、satisfaction 和 monthly charges 是 重要 变量 。 
男性 客户 和 那些 月 度 费 用 额度 较 高 的 客户 有 较 高 的 流失 倾 癌 ， 因 为 他 们 的 似 然 分 数 大 于 1 而 p 值 较 低 。 


满意 度 分 数 为 4 的 客户 有 较 小 的 沅 失 倾 癌 ， 因 为 他 们 的 似 然 分 数 小 于 1， 但 p 值 较 低 。 尽 管 满意 度 分 数 为 5 的 那些 客户 并 不 是 
重要 变量 ,但 是 把 他 们 考虑 进去 也 是 有 道理 的 ， 因 为 他 们 的 系数 表示 他 们 比较 可 能 留 下 ， 而 且 从 某 种 程度 上 说 他 们 的 p 值 也 较 低 
(但 是 在 0.05 水 平 上 并 不 重要 ) 。 也 值得 把 这 些 客户 单独 拿 出 来 ， 看 看 是 人 否 还 有 其 他 的 因素 导致 其 中 一 些 人 人 流失。 我们 认为 在 这 
个 模型 中 可 能 还 需要 一 些 交互 因子 。 


6.6.3 ”比例 风险 测试 


在 cox 回 归 运 行 完 之 后 ， 有 时 还 需要 进一步 测试 。cox 回 归 的 假设 之 一 需要 进行 测试 ， 就 是 检验 一 个 事件 的 风险 是 纯粹 依赖 
于 变量 的 ， 而 不 依赖 于 时 间 。 如 果 这 个 假设 成 立 ， 那 么 时 间 就 不 会 作为 一 个 自 变 量 来 使 用 。 所 以 ， 我 们 需要 做 一 种 名 为 比例 风险 
的 测试 。 这 可 以 用 cox.zph 来 完成 。 


运行 下 面 的 示例 代码 ， 即 #coxproptext==== 这 行 以 下 的 部 分 。 
这 段 代 码 会 做 以 下 事情 : 

“ 把 比例 风险 测试 的 输出 赋值 给 temp 对 象 ; 

` 把 测试 结果 输出 在 控制 台 界 面 ; 


` 遍历 temp 对 象 中 包含 的 所 有 模型 变量 ， 并 绘制 它们 的 比例 风险 图 : 


#coxproptext==== 


#test for proportional hazards 
temp <—- cox.zph (CoxModel .1, 


print (temp) 

par (mfrow=c (2,5)) 
For tL TH TI 
plot (templ[1]) 

} 


transform = 


dev.copy (Jpeg, 'Ch5 - Coxmodell1 zph.]Jpd'") ; 


dev.off() 
savehistory 


首先 ， 查 看 print (temp) 命令 的 输出 : 


> print (temp) 


XeducationDoctorate Degree 


XeducationMaster’'s 
XgenderM 
Xsatisfaction2 
Xsatisfaction3 
Xsatlisfaction4 
Xsatisfaction5 
Xservice.calls 
XO, .SE Mornitn 
xXmonthly.charges 
GLOBAL 


在 输出 中 ， 你 会 注意 到 卡 方 检验 (第 4 列 ) 和 相关 的 p 值 (第 5 列 ) 用 来 测试 如 下 假设 : 每 个 回归 协 
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不 依赖 于 时 间 的 。 


为 了 让 模型 通过 这 个 假设 ,你 需要 看 到 较 高 的 p 值 ， 全 部 都 要 在 关键 显 车 性 水 平 以 上 。 人 在 这 个 案例 里 面 ，p 值 全 部 高 于 0.05， 所 
以 全 部 的 变量 都 通过 了 比例 风险 测试 的 假设 。 


6.6.4 比例 风险 经 匿 


以 上 代码 绘制 出 的 图 形 也 显示 : 随 着 时 间 的 推移 ， 所 


对 应 一 条 明显 向 上 或 者 向 下 倾斜 的 线 。 


变量 都 呈现 一 种 统一 风格 的 分 散 性 。 如 果 变 量 随 时 间 变 化 ， 在 图 中 会 
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6.6.5 ”获取 cox 和 生存 曲线 


可 以 获取 cox 模 型 的 生存 曲线 ， 方 法 和 获取 KM 模型 的 生存 曲线 一 样 。 为 了 获取 曲线 需要 的 数据 点 ， 请 使 用 
summary (survfit (CoxModel.1) ) ， 它 也 会 显示 置信 区 间 、 流 失 的 成 员 数 量 (n.event) ， 还 有 面临 风险 的 成 员 的 数量 
(Nn.risk) : 


> summary (survfit (CoxModel.1)) 
Call: survfit (formulja = CoxModel.1) 


time n.risk n.event survival std.err lower 95% CI upper 95% CI 


| 1488 43 Gs393 QUOL9s 0.989 Osab 
2 1455 Da 0.967 0.00404 0.960 9 
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6.6.9 ”比较 性 别 帮 异 


把 男性 子 集 的 生存 曲线 ( 左 图 ) 和 女性 子 集 的 生存 曲线 ( 右 图 ) 进行 对 比 时 ,我们 可 以 看 到 ， 男 性 曲线 左上 角 的 密度 比 女 性 
曲线 左上 角 密 度 稍微 大 一 些 。 这 支持 了 “男性 比 女性 流失 得 早 一 些 ” 的 假设 : 


专 性 ( 子 集 ) 生存 曲线 女性 ( 子 集 ) 生存 曲线 
Observations = 300 Observations = 300 
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比较 客户 满意 度 的 差异 


首先 ， 为 满意 度 打 分 最 高 和 最 低 的 组 进行 抽样 ， 满 意 度 为 1 相对 于 满意 度 为 5 显示 出 更 早 的 流失 客户 ， 从 点 的 密度 上 可 以 看 
出 来 : 


Satotite Low = BUrviit(CoxMogdel..1, 
newdata=subset (ChurnStudyl[l1:300,],as.integer (Xsatisfaction) == 1)) 
plot (sat .fit.low,col=c('red') ,lty=1,xlab="Months", ylab="Hazard") 


title(main = "Sat (Lowest) Survival") 

四 

sat .fit.high <- survfit (CoxModel.1, 

newdata=subset (ChurnStudy[1:300,],as.integer (Xsatisfaction) == 5)) 
plot (sat .fit.high,col=c('blue') ,lty=1,xlab="Months", ylab="Hazard") 
title(main = "sat (Highest) Survival") 

dev.copy (Jpeg, 'Ch5 - CoxModell! sat.jpg’); dev.off'() 


下 面 是 最 高 和 最 低 的 满意 度 得 分 的 比较 : 





6.6.10 ”验证 异型 


早 些 时 候 ,我们 创建 了 ChurnStudy.test 测 试 数 据 集 ， 而 县 没有 使 用 它 来 训练 我 们 的 cox 回 归 模 型 。 在 创建 这 个 数据 集 之 
， 我 们 只 是 把 它 放 企 一 边 。 我 们 将 要 演示 一 种 方法 ， 用 这 个 保留 的 数据 集 来 验证 从 CoxModel.1 中 获取 的 训练 结果 。 


ll 


找到 #predict==== 标 签 并 运行 下 面 的 代码 : 


#predict==== 
par (mfrow=c (1,1)) 


# 


计算 基线 估计 


首先 我 们 要 为 刚才 运行 的 回归 模型 计算 基线 (或 者 平均 ) 估计 ， 使 用 basehaz () 函数 。 我 们 要 把 它 赋 给 一 个 叫 base 的 对 
象 ， 然 后 输出 并 给 它 绘图 : 


#Let’s start by looking at the baseline estimates for each time period. 
# 
base <- basehaz (CoxModel.1) 
print (base) 
> print (base) 

hazard time 
.007174321 
.033151848 
.051088747 
:062057960 
.084305023 
.109773610 
.149493300 


~ OOOOD PP 
CC CD 人) CD CC) 
~ OOOODP 


US 8 
.281904190 9 
.420681696 10 
:B23 02D0D 11 
-201090658 12 


10 
11 
12 


上 CD CD CI CD) 


前 面 说 过 ， 风 险 这 个 词 表示 一 个 事件 (流失 ) 友 生 的 可 能 性 ， 前 提 是 这 个 事件 还 没有 友 生 。 这 个 术语 和 生存 率 这 个 术语 有 轻 
微 的 不 同 ， 我 们 起 先 寺 论 过 ， 生 存 率 表示 始终 没有 友 生 该 事件 的 人 群 的 百分率 。 


我 们 可 以 看 到 ， 随 着 时 | 间 的 流逝 ， 流 失 的 风险 永远 是 在 增加 的 。 


在 第 7 个 月 和 第 8 个 月 之 前 ， 看 起 来 流失 的 速度 是 线性 增长 的 ， 在 这 之 后 ,流失 的 速度 开始 呈 指 数 增长 ， 而 最 大 的 流失 友 生 
在 12 个 月 的 最 后 一 月 。 友 生 这 种 情况 可 能 是 因为 客户 当前 的 合约 开始 接近 结束 期 限 了 。 


为 每 个 时 期 的 风险 绘制 基线 图 : 


ggplot (base, aes (basestime, baseshazard)) + geom bar(stat = 
"jdentity",fill='blue') + 
ggtitle("Churn Baseline Hazard by Time") + 
labs (x="Month",y="Hazard") 
dev.copy (Jpeg, 'Ch5 - baseline hazard.]Jpg'),; 
dev .of () 


每 个 时 期 的 风险 流失 基线 图 


1.0 - 
0.3 | 
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运行 predict () 函数 


风险 


10.0 We 
接 下 来 ,我 们 要 基于 在 ChurnStudy 上 训练 的 预测 模型 ,使 用 predict () 消 数 来 给 Churn-Study.test 里 面 的 数据 打分 。 代 码 
中 的 newdata= 标 签 表明 了 要 存储 的 新 的 数据 集 。 而 lp 这 个 类 型 是 用 于 预测 的 几 种 类 型 之 一 ， 而 且 这 种 方法 使 用 的 是 线性 的 预测 
请 : 

预测 的 结果 是 对 数 的 形式 。 


pred_validation <- predict (CoxModel.1, newdata=ChurnSsStudy.test, 


type="l1p") 
预测 时 间 6 的 结果 


预测 是 对 数 的 形式 。 取 其 指数 并 乘 以 基线 风险 估计 ， 获 得 第 6 个 月 的 预测 值 : 


六 
head (pred_ validation) 
国 


pred.val <—- basel[6,1]*exp (pred _ validat1on) 


假设 我 们 想 要 预测 在 分 析 周 期 的 中 间 (time=6) 会 友 生 沅 失 的 风险 。 


首先 ， 我 们 要 取 预 测 的 指数 ， 并 把 它们 乘 以 在 time=6 时 候 人 在 hazard 那 一 列 的 基线 风险 估计 。 这 个 方法 的 效果 是 在 基线 风险 
率 上 加 上 了 预测 的 影响 系数 : 


pred.val <- basel[6,1]*exp (pred validat1ion) 


我 们 现在 要 把 预测 值 和 测试 数据 集 的 原始 值 合并 起 来 ， 在 验证 行 数 和 预期 的 一 样 之 后 ， 骨 查看 结果 : 


combine <- cbind(ChurnSsStudy.test,pred validation,pred.val) 
> nrow (combine) 


[1] 496 
View (combine) 


View 冰 数 打 开 了 数据 帧 ， 这 样 我 们 就 可 以 查看 了 : 


Masters Degree M 115.098475 -0.326359648 | 0.07920667 


372.688733 | 1.785420280 | 0.65447961 
120.539268 -0.505061482 | 0.06624491 | 
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31.944160 -0.742731950 | 0.05223163 





请 看 最 后 一 列 所 显示 的 预测 结果 。 预 测 结果 实际 上 是 风险 分 数 ， 取 值 沁 围 在 0 到 1 之 间 。 


检查 预测 的 数值 (pred_val) 和 实际 流失 的 输出 (Churn) 融 可 以 对 预测 结果 与 实际 结果 之 间 的 差异 有 个 大 概 了 解 。 再 检查 
一 下 和 目 变量 和 预测 值 之 间 的 关系 。 例 如 ， 你 可 以 在 开头 的 几 行 中 看 到 ，churn=1 事 件 所 在 的 那些 行 ， 其 中 的 月 度 苑 值 比 其 他 的 


行 要 高 得 多 。 


为 了 看 到 流失 的 客 尸 和 未 流失 的 客户 之 间 的 平均 分 数 的 夺 异 ,我 们 可 以 用 一 些 平均 聚集 消 数 输出 其 结果 。 在 运行 了 下 面 的 代 
码 之 后 ， 我 们 可 以 看 到 流失 客 尸 (他 们 的 风险 分 数 较 高 ) 和 未 流失 客户 之 间 的 差别 |: 


y <- aggregate (combinespred.val, by=list (combinesChurn),FUN=mean, 
na.rm=TRUE) 


DELNt {YY) 
> print (y) 

Group.1 x 
1 0 0.0646759 
2 1 0.2326843 


6.6.11 决定 一 致 性 


一 作 性 指数 ， 是 一 种 在 生存 分 析 中 用 来 度量 模型 分 辨 观察 和 预测 响应 的 能 力 的 指标 。 在 我 们 的 流失 示例 里 面 ， 我 们 期 望 流失 
的 客 己 与 仍然 活跃 的 客 尸 相 比 有 较 高 的 风险 率 。 如 果 一 致 性 指数 大 于 0.5， 那 就 表示 在 模型 中 已 经 建 六 了 某 种 预测 的 能 力 。 


为 了 计算 这 个 指数 ， 我 们 要 使 用 surcomp 包 里 面 的 concoredance.index () 国 数 来 度量 pred valication 统 计 与 实际 的 流失 
结果 之 间 的 一 致 性 。 


正如 在 前 面 的 示例 中 所 做 的 那样 ， 需 要 提供 预测 结果 、 时 间 变 量 和 事件 变量 作为 该 函数 的 参数 。 我 们 还 要 输出 相关 的 置信 区 
上 间 : 


library (SurvVcomp ) 


cindex_validation = concordance.index (pred validation, surv.time = 
ChurnStudy.test$xXxTenure2, 


surv.event=ChurnStudy.testsChurn) 


# 
print (cindex_validationsc.1index) 
print (cindex_validationsupper) 


print (cindex_validations$lower) 
这 个 示例 中 计算 出 来 的 指数 是 70%， 置 信和 区间 显 示 它 的 波动 学 围 是 60% ~ 7796: 


> print (cindex_validationsc.index) 
[4] Os 606973212 

> print (cindex _ validationsupper) 
[1] 0.7736508 

> print (cindex_validationslower) 
[1] 0.6082843 


6.7 ”基于 时 间 的 变量 


到 目前 为 止 ， 我 们 使 用 的 所 有 变量 都 是 静态 的 ， 也 束 是 说 ， 在 整个 度量 周期 中 ， 它 们 都 是 保持 最 初 的 值 不 变 。 


在 现实 中 ， 年 龄 和 婚姻 状况 之 类 的 值 是 随 着 时 间 改 变 的， 而且 模 型 可 以 利用 上 这 些 改变 。 在 市 场 环境 下 ， 调 查 可 能 是 在 人 研究 


屁 是 
开始 乙 后 得 到 了 管理 。 基 于 其 中 一 些 变 量 的 变化 ， 可 能 提供 了 一 些 优惠 券 和 激励 政策 来 改变 客户 的 行为 。 在 模型 里 也 可 以 利用 上 


这 些 变化 。 


在 我 们 的 示例 中 ， 会 引入 一 个 假设 的 第 二 次 调查 ， 在 度量 周期 的 第 6 个 月 进行 这 个 调查 ， 度 量 那 些 不 满意 的 客 尸 受到 优待 之 
后 的 效果 。 


6.7.1 ”改变 数据 以 有 反映 第 二 次 调查 


下 面 的 代码 使 用 sursplit 函 数 来 在 时 间 周 期 6 创建 了 一 个 新 的 记录 ， 上 反映 了 那个 时 间 进 行 的 第 二 次 假设 的 客户 调查 的 啊 应 。 


复制 下 面 的 代码 ， 并 粘贴 到 一 个 新 的 脚本 窗口 再 运行 它 : 


library (survival) 

SURV2 <- survSplit (data = ChurnStudy, id="1ID.char", cut = 6, end = 
"Xtenure2", start = "time0", event = "Churn", eplisode="perliod") 
SURV25CustomerID <- as.integer (SURV2S$ID.char) 

SURV2 <- SURV2 [order (SURV2S5CustomerID),] 


在 R 的 控制 台 上 ， 执 行 下 面 的 这 些 命令 ， 看 看 数据 帧 是 如 何 增长 的 。 因 为 我 们 在 中 点 (第 6 个 月 ) 把 所 有 的 记录 分 开 了 ， 几 
乎 是 把 原始 的 记录 数 给 翻 了 一 倍 : 


> nrow (ChurnStudy) 


[1] 1984 
> Nrow (SURV2) 
[1] 3512 


6.7.2 survSplit 的 工作 原理 


我 们 来 深入 地 了 解 一 下 surSplit 销 数 ， 看 它 是 如 何 影 响 满意 度 变 量 的 。 我 们 需要 追踪 客户 满意 度 是 如 何在 周期 6 友 生 变化 
的 ，surSplit 消 数 在 改变 数据 帧 时 创建 了 新 的 行 ， 并 修改 了 时 间 周 期 以 便 反 映 客户 满意 度 的 变化 。 在 我 们 的 示例 里 ， 这 意味 着 该 
函数 要 在 第 6 个 月 的 截止 期 之 后 (cut=6) ， 基 于 Xtenure2 的 值 创建 新 的 行 。 


举 个 例子 来 说 明 这 是 怎么 进行 的 ， 首 先 ， 查 看 原始 的 ChurnStudy 数 据 帧 ， 观 察 第 一 个 记录 ， 它 的 保留 期 是 7 个 月 。 这 个 客 
尸 待 的 时 间 足 够 长 ， 并 参与 了 第 二 次 调查 。 


ChurnStudy$seqgqid <- seq(i:nrow (ChurnSstudy)) 
View(subset (ChurnStudy, select = c(seqgqid,Xtenure2,Xsatisfaction, 
aoatistactionz, Churn)}) 












































现在 看 看 surSplit 函 数 的 输出 。 你 可 以 看 到 ， 第 一 条 记录 (CustomerID=1) 已 经 分 裂 成 两 条 : 一 条 从 客户 活跃 的 第 一 个 月 
开始 (time0=0) ， 另 一 条 记录 则 是 从 第 6 个 月 开始 的 (time0=6) 。 


另 一 方面 ，CustomerID=2 却 只 有 一 条 记录 ， 因 为 该 客户 只 保留 了 5 个 月 ， 比 截止 期 cut=6 的 时 间 要 短 。 


View (subset (SURV2， select = c(CustomerID,time0,period, Xsatisfaction, 
Xsatisfaction2, Xtenure2, Xmonthly.charges, Churn)),) 





在 这 个 时 候 ， 从 分 析 来 看 ， 所 有 的 东西 都 没有 真正 改变 。 创 建 了 两 条 记录 却 携 市 的 是 完全 一 样 的 信息 ， 唯 一 区 别 是 一 条 记录 
显示 的 信息 是 到 周期 6 为 止 的 ， 另 外 一 条 记录 的 信息 是 到 周期 12 为 止 的 。 


我 们 可 以 通过 运行 一 个 简单 的 交叉 表 来 查看 1 ~ 12 月 是 如 何 与 周期 对 齐 的 : 


> table (SURV2S$Speriod, SURV25Xtenure2) 


业 2 3 3 6 4 8 > -局 11 上 之 
3 62 2 17 10 1245 0 0 0 0 0 0 
1 0 0 0 0 0 9 130 L719 T9599 BI ZL Be 


6.7.4 运行 基于 时 间 的 模型 


现在 我 们 已 经 重新 格式 化 了 数据 ， 准 备 好 运行 第 二 个 基于 时 间 的 模型 。 


变量 CoxModel.2 是 模仿 CoxModel.1 的 风格 创建 的 ， 不 过 用 Xsatisfaction2 取 代 了 Xsatis-faction 用 于 表示 因为 随后 的 研究 
而 改变 的 满意 度 。 新 的 time0 变 量 取 代 了 原先 的 保留 期 变量 ， 而 Churn2 取 代 了 原先 的 流失 响应 变量 : 


CoxModel .2 <- coxph (Surv (time0,Xtenure2, Churn2) ~ 
Xeducation + Xgender + Xsatisfaction2 + 
Xservice.calls + 
XPpurch.last.month + Xmonthly.charges, 
data=SURV2) 


请 注意 不 要 履 兰 已 有 区 量 的 名 称 。 要 么 在 已 经 仓 在 的 数据 帧 中 创建 新 的 变量 ， 要 么 在 保留 旧 的 数据 帧 同时 创建 一 个 新 数据 由 
来 使 用 。 


在 运行 完 模型 之 后 ， 我 们 使 用 stargazer 命 令 (或 者 summary (CoxModel.2) ) 来 查看 模型 的 输出 。 
在 性 别 、 满 意 度 和 月 度 充值 后 面 的 星 号 ， 表 示 它 们 是 模型 中 最 重要 的 变量 。 


R-square 值 为 0.13， 并 不 是 一 个 标准 的 线性 回归 类 型 度量 ,但 这 是 一 个 我 们 前 面 讨论 过 的 伪 R-square 度 量 ， 它 的 取 值 学 围 
是 0 ~ 1， 度 量 拟 合 模 型 和 虚设 模型 之 间 的 差异 程度 。 如 果 你 有 点 好 奇 ， 想 知道 这 个 特别 的 伪 R-square 在 cox 回 归 中 是 如 何 计 算出 
来 的 ， 可 以 运行 下 面 这 个 命令 : 


getS3method("summary", "Coxph") 


然而 ， 这 个 值 没有 原先 的 CoxModel.1 高 。 这 很 可 能 是 因为 对 数据 做 了 人 工 的 修改 。 在 任何 情况 下 ， 依 赖 于 单一 的 度量 都 不 
是 一 个 好 主意 ， 随 后 我 们 马上 可 以 看 到 该 模型 如 何 改进 了 保留 率 : 
library (stargazer) 


stargazer (CoxModel .2, single.row=TRUE,type=‘“text’) 


> stargazer (CoxModel .2, single.row=TRUE,type=‘text’) 





time0 
XeducationDoctorate Degree aloy. 1 0 
XeducationMaster’s Degree -0.200 (0.140) 
XgenderM 0.091 (0.120) 
Xsatisfaction22 用 本 
Xsatlisfaction23 -UBD00mE 0,200) 
Xsatisfaction24 Us 
KeatlLstactiornas De tisS0U) 
Xservice.calls 0.013 (0.044) 
DECN Last Month -DD D0 0 .029) 
Xmonthly.charges BUD [T0001 
Observations 2,644 
R2 W330 
Max. Possible R2 0.900 
Log Likelihood -yd69,.U00 
Wald Test 3710.000*** (df = 10) 
LR Test 300 .OU td = J0) 
Score (Logrank) Test US (dF = 10) 
Note: Te ls SE Ss Te 


让 我 们 着 手 创建 男 一 个 生存 曲线 : 


par (mtrow=c (1,1)) 


autoplot (survfit (CoxModel.1), surv.linetype = 'dashed', surv.colour = 
"blue '， 

Conft .lnt.flllLl = 'dodgerblue3', conf.int.alpha = 0.5, censor = 
FALSE ) 
dev.copy (JPpeg, 'Ch5 -七 Ime based variable 1.jpg'); 
dev.off() 
autoplot (survfit (CoxModel .2), surv.linetype = 'dashed', surv.colour = 
'red', 

conf.int.fill] = 'orange', conf.int.alpha = 0.5, censor = FALSE) 
dev.copy (jpeg, 'Ch5 —-— time based variable 2.jpg'); 
dev.off() 


savehistory (file="Ch5S 七 Ime based variable.txt") 


下 面 并 列 显 示 了 原始 的 ( 左 图 ) 和 基于 时 间 的 ( 右 图 ) 生存 曲线 : 





6.8 ”比较 模型 


尽管 两 条 曲线 看 上 去 很 相似 ， 但 是 我 们 可 以 看 到 ， 在 第 12 个 月 结束 的 时 候 ， 有 56% 的 客户 保留 下 来 了 ， 相 对 应 的 是 原始 的 
数值 是 27%。 我 们 可 以 把 这 个 变化 归 因 于 在 第 6 个 月 友 生 的 干预 。 


使 用 summary (survfit) 国 数 比较 这 两 种 模式 : 


> summary(survfit(CoxModel.2)) > summary(survfit(CoxModel.1)) 

Call: survfit(formula = CoxModel.2) Call: survfit(formula = CoxModel.1) 

V time n.risk n.event survival std.err lower 
time n.risk n.event survival std.err lower 95% Cl upper 95% CI 

95% Cl upper 95% CI 1 1488 15 0.993 0.00185 0.989 s0.996 


1 1488 15 0.994 0.00157 0.991 0.997 


2 1455 52 0.973 0.00359 0.966 0.980 
3 1393 34 0.958 0.00461 0.949 0.967 


4 1342 20 0.950 0.00518 0.940 0.960 
5 1315 39 0.932 0.00624 0.920 0.945 
6 1245 42 0.913 0.00736 0.898 0.927 
7 1156 24 0.898 0.00801 0.883 0.914 
8 1020 32 0.877 0.00902 0.859 0.895 


2 1455 22 0.967 0.00404 0.960 0.975 
3 1393 34 0.950 0.00505 0.940 0.960 
4 1342 20 0.940 0.00559 0.929 0.951 
S19939 0919 D005 0.9006.U0.932 
6 1245 42 0.896 0.00752 0.881 0.911 
7 1156 60 0.861 0.00884 0.844 0.879 
8 1020 68 0.818 0.01033 0.798 0.838 
9 850 89 0.754 0.01233 0.731 0.779 


9 850 40 0.846 0.01052 0.825 0.866 

Lobo SE DLZ93U. /72 U022 
11 435 54 0.721 0.01688 0.688 0.755 
L220 Uo OOoILD 022 ol 


10 665 115 0.657 0.01500 0.628 0.687 
11 435 105 0.536 0.01789 0.502 0.572 
12 2250 11202780:02220 0.237 0325 





6.9.1 合并 交互 作用 项 


为 了 在 下 一 个 模型 中 合并 这 些 交 互 作 用 ,我们 直接 把 它们 指定 在 模型 公式 的 右边 。 例 如 ， 指 定 的 时 候 包括 了 服务 电话 ， 以 及 
服务 电话 和 上 月 购买 数量 的 交互 作用 ， 作 为 模型 中 的 项 : 


CoxModel.2 <- coxph (Surv (time0,Xtenure2, Churn2) ~ 
Xeducation + Xgender + Xsatisfaction2 + 
Xservice.calls + Xpurch.last.month:Xservice.calls + 
Xpurch.last.month + Xmonthly.charges, 
data=SURV2) 


显示 公式 的 子 列表 


如 果 你 不 喜欢 手动 打出 所 有 的 项 ， 可 以 先 显示 一 个 公式 子 列表 ， 它 会 列 出 前 5 个 模型 的 所 有 公式 。 这 样 你 就 可 以 直接 复制 粘 
贴 了 : 


> glmulti .coxph.out@formulas 

[[1]] 

Surv (Xtenure2, Churn) ~ 1 + Xgender + Xsatisfaction + Xservice.calls + 
Xmonthly.charges + Xpurch.last.month:Xservice.calls + 
Xmonthly.charges:Xservice.calls + 

Xgender:Xmonthly.charges + Xsatisfaction:Xmonthly.charges 
<environment: Ox0000000034599328> 


[ [2]] 

Surv (Xtenure2, Churn) ~ 1 + Xgender + Xsatisfaction + Xservice.calls + 
Xmonthly.charges + Xpurch.last.month:Xservice.calls + 
xXxmonthly.charges:Xservice.calls 十 

Xmonthly.charges:Xpurch.last.month + Xgender:Xmonthly.charges + 
Xsatisfaction:Xmonthly.charges 

<environment: Ox0000000034599328> 


| [3 | 

Surv (Xtenure2, Churn) ~ 1 + Xgender + Xsatisfaction + Xservice.calls + 
Xmonthly.charges + Xpurch.last.month:Xservice.calls + 
Xmonthly.charges:Xservice.calls + 

Xsatisfaction:Xmonthly.charges 

<environment: Ox0000000034599328> 


[[4]] 

Surv (Xtenure2, Churn) ~ 1 + Xgender + Xsatisfaction + Xservice.calls + 
Xpurch.last.month + Xmonthly.charges + Xpurch.last.month:Xservice.calls + 
Xmonthly.charges:Xservice.calls + Xgender:Xmonthly.charges + 
Xsatisfaction:Xmonthly.charges 

<environment: Ox0000000034599328> 


[L331] 

Surv (Xtenure2, Churn) ~ 1 + Xgender + Xsatisfaction + Xservice.calls + 
Xpurch.last.month + Xmonthly.charges + Xpurch.last.month:Xservice.calls + 
Xmonthly.charges:Xservice.calls + Xmonthly.charges:Xpurch.last.month + 
Xgender:Xmonthly.charges + Xsatisfaction:Xmonthly.charges 

<environment: Ox0000000034599328> 


6.9.2 ”比较 各 个 备 选 异型 的 AIC 

正如 我 们 在 前 面 几 章 中 提 到 过 的 ，AIC 是 一 种 指标 ， 可 以 帮助 你 选择 模型 。 选 项 plotty="T" 也 会 为 找到 的 前 几 个 模型 生成 一 
个 AIC 的 图 表 。 在 调用 函数 时 ， 我 们 表明 了 想 要 看 看 前 5 个 模型 。 

R 程 序 包 的 作者 认为 : 一 个 合理 的 重要 规则 是 考虑 那些 位 于 红色 横 线 以 下 的 模型 

根据 这 个 定义 ， 模 型 4 和 5 就 不 考虑 了 ， 剩 下 模型 1、2 和 3 需要 考虑 。 


下 面 是 前 5 个 模型 的 AIC 值 的 图 表 : 


IC 配置 信息 





3 
最 佳 模型 


我 们 还 可 以 指定 绘制 一 个 变量 重要 性 图 表 ， 使 用 绘图 语句 的 时 候 指 十 type="s": 





plot (glmulti1i .coxph.out,type = "s") 


这 个 图 标 是 一 个 很 好 的 水 平 柱状 图 的 例子 ， 根 据 特征 的 重要 性 进行 了 排序 : 


特征 重要 性 的 水 平 柱状 图 





6.10 ”本 童 小 结 


在 本 章 中 ， 我 们 学 习 了 什么 是 生存 曲线 ， 以 及 如 何 使 用 两 种 主要 的 扩 术 (Kaplan-Meir 和 和 cox 回归 ) 来 解释 和 预测 客户 流失 


的 案例 。 
我 们 还 学 习 了 如 何 生 成 自己 的 数据 来 测试 假设 ， 以 及 测试 模型 的 重 棒 性 。 
最 后 还 学 习 了 一 些 编 程 技 巧 ， 可 以 用 来 重复 和 保存 我 们 生成 的 代码 与 图 像 。 


在 下 一 章 里 ， 我 们 不 再 研究 客户 离开 的 问题 ， 而 是 要 讨论 一 下 如 何 预测 客户 下 次 要 购买 的 乐 西 ， 以 便 保 持 客户 的 愉悦 心情 ， 
我 们 要 使 用 的 扩 术 叫 作 购物 篮 分 析 。 


第 7 章 “使 用 购物 篮 分 析 作为 推荐 系统 引擎 


在 你 知道 如 何 遵守 规则 之 前 ， 违 反 规 则 是 不 明智 的 。 
-一 一 .SS.Ejiot 
本 章 ， 我 们 介绍 的 主题 是 : 
使 用 atules 包 的 购物 得分 析 
: 使 用 半 结 构 化 的 购物 篮 交 易 数据 的 数据 转化 和 清理 技术 
: 学 会 如 何 将 交易 对 象 转换 到 数据 帧 
` 使 用 flexclus 包 运用 聚 类 分 析 


` 使 用 RTextTools 和 tm 包 进 行文 本 挖掘 


7.1 什么 是 购物 篮 分 析 


如 果 你 已 经 学 过 上 一 章 的 生存 分 析 ， 那 么 现在 将 为 你 介绍 的 是 购物 篮 分 析 (market basket analysis，MBA) 。 购 物 篮 分 
析 (有 时 也 称 为 亲 和 度 分 析 (affinity analysis) ) ， 是 一 种 在 零售 行业 大 量 使 用 的 预测 分 析 技术 ， 用 于 识别 会 被 一 同 放 入 购物 
篮 购买 的 商品 。 典 型 用 例 是 超市 购物 车 ， 购 物 者 通常 会 搭配 购买 各 种 商品 ， 如 牛奶 、 面 包 、 奶 酷 等 ， 该 算法 将 预测 如 何 通 过 购买 
某 些 特 定 商品 影响 购物 者 购买 其 他 商品 。 其 中 一 种 方法 是 ， 零 售 商 知道 要 开始 给 你 发 送 一 些 有 关 商 品 的 优惠 券 和 电子 邮件 ， 而 这 
些 商品 你 甚至 不 知道 自己 需要 ， 


一 个 经 常 密 引用 的 MBA 的 例子 是 ， 婴 儿 尿 不 湿 和 啤酒 的 天 系 : 


一 家 超市 连锁 店 在 它 的 分 析 中 发 现 ， 买 婴儿 尿 不 湿 的 顾客 通常 也 会 买 啤酒 ， 所 以 将 婴儿 尿 不 湿 放 在 啤酒 穷 边 ， 这 两 类 商品 


的 销售 额 都 会 大 幅 增加 。 


一 一 http:/ /en.wikipedia.otey/ wiki/Matket_basket 


然而 ， 这 不 仅 限 于 零售 行业 。MBA 也 可 以 用 于 保险 行业 ， 来 查看 投保 人 目前 已 经 拥有 的 各 种 保险 产品 ， 例 如 汽车 、 房 屋 
， 并 建议 其 他 可 能 购买 的 保险 产品 ， 如 生 合 险 、 和 残疾 险 或 投资 险 产 品 。 


由 


签 于 经 常 不 会 措 定 目标 变量 ，MBA 通 弟 补 认为 是 一 种 无 监督 学 习 算法 。 但 是 ， 正 如 你 稍 后 即将 看 到 的 ， 也 可 以 细 化 关联 规 
则 ， 以 便 将 特定 项 目 指定 为 目标 变量 。 


MBA 也 被 看 作 一 种 推荐 系统 引擎 ， 指 出 购买 一 系列 的 商品 意味 着 可 能 会 购买 其 他 商品 。 当 然 ，MBA 和 其 他 的 推荐 系统 引 堂 
可 以 共享 相同 类 型 的 输入 数据 。 然 而 ，MBA 的 友 展 出 现在 亚马逊 开 友 的 协同 过 滤 技 术 诞 生 之 前 ， 协 同 过 渡 技 术 令 人 联想 到 更 多 
的 是 对 收集 到 的 网 络 数据 的 综合 ， 而 MBA 和 扫描 仪 中 发 现 的 RFID 条 形 码 技术 关联 得 更 多 。 不 过 ， 两 种 技术 的 目标 都 是 基于 过 去 
的 购买 记录 来 建议 未 来 的 购买 万 同 。 


7.2 ”检查 杂 员 明细 


理解 MBA 的 关键 是 支持 度 、 置 信和 度 以 及 提升 度 的 概念 。 它 们 是 评估 一 组 关联 规则 的 拟 合 优 度 的 度量 。 你 还 会 学 习 到 一 些 在 
MBA 中 单 用 的 专门 定义 ， 如 推论 、 务 例 以 及 项 目 集 。 


为 了 介绍 这 些 概念 ， 我 们 首先 引入 一 个 非常 入 单 的 例子 。 在 这 个 例子 中 ， 只 使 用 Groceries (杂货 店 ) 交易 明细 文件 的 前 10 
条 交易 记录 ， 该 明细 文件 可 以 在 arules 包 中 找到 |: 


library (arules) 


加 载 完 arules 库 之 后 ， 你 可 以 在 命令 行 输 入 ? Groceries 查 看 Groceries 数 据 集 的 简短 描述 。 在 help 窗 口中 显示 的 描述 如 下 : 


“Gtoceries 数 据 集 包含 1 个 月 (30 天 ) 内 ， 源 自 一 个 典型 的 本 地 食品 杂货 直销 商场 的 真实 销售 点 交易 数据 。 该 数据 集 包 含 


9835 笔 交易 ， 这 些 明 细 汇 总 为 169 个 类 别 。 
天 于 该 数据 集 的 收集 方法 的 更 多 信息 ， 请 参考 原始 文献 (Michael Hahsler，2006) 。 
arules 包 加 载 完 成 乙 后 ，Groceries 数 据 集 也 加 载 到 了 内 和 存 中 : 


data (Grocerilies) 
杂货 店 交易 明细 文件 的 格式 


Groceries 是 一 个 交易 类 对 象 ， 而 不 是 一 个 数据 帧 。 这 个 R 对 象 表示 用 于 挖掘 项 目 集 或 规则 的 交易 数据 。 从 逻辑 上 来 说 ， 它 
由 一 份 杂 货 收 据 清 单 以 及 购买 的 商品 共同 组 成 。 每 一 行 都 是 一 条 交易 记录 ， 交 易 的 每 一 列 代 表 购 买 的 特定 商品 项 目 。 


例如 ， 有 3 条 交易 ， 包 括 购买 的 不 同 数量 的 东西 : 


不 过 ， 一 个 交易 对 象 企 物理 上 不 是 以 严格 的 数据 库 表格 格式 组 织 的 。 它 是 一 种 特殊 的 R 对 象 格式 ， 称 为 交易 /事物 。 


你 也 可 以 运行 Summary (Groceries) ， 它 会 给 你 提供 一 些 关 于 交易 文件 结构 的 概要 信息 ， 以 及 在 购物 段 中 最 常见 的 单个 项 


> summary (Groceries) 

transactions as itemMatrix in sparse format with 
9835 rows (elements/itemsets/transactions) and 
169 columns (items) and a density of 9.926 


most frequent items: 
whole milk other vegetables rolls/buns 
2513 1903 1869 





稍 后 你 会 看 到 我 们 如 何 将 数据 帧 转换 为 区 易 对 象 ， 以 及 如 何 将 交易 对 稼 转换 为 数据 帧 。 关 于 对 象 ， 如 果 想 得 看 更 多 的 信息 ， 


可 以 在 命令 终端 行 输入 ?transactionlnfo。 
要 查看 Groceries 文 件 的 简单 购物 篮 示 例 ， 可 以 运行 以 下 代码 。 


检查 由 inspect () 函数 生成 的 输出 结果 ， 输 出 购物 篮 的 第 10 ~ 19 条 交易 。 注 意 每 一 条 交易 都 由 一 个 唯一 的 交易 ID 以 及 一 个 
购物 清单 组 成 。 一 条 交易 可 以 仅 一 件 购 买 的 商品 (交易 4， 只 买 了 牛肉 ) ， 也 可 以 购买 多 个 商品 (交易 1， 和 牛奶 和 麦片 
(Cereal) ) : 


lnspect (Groceries[10:19]) 


输出 结果 如 下 : 


ltems 
[1] {whole milk,cereals.} 
[2] {tropical fruit,other vegetables,white bread,bottled water,chocolate} 
[3| CITItTUS TrUlty troplical UTC 
milk,butter,curd,yogurt,flour,bottled water,dishes} 
] {beef} 
] {frankfurter,rolls/buns,sodal 
| .chieken tropreal Erurt 
] {butter,sugar,fruit/vegetable juice,newspapers} 
] {fruit/vegetable JjJuice} 
] {packaged fruit/vegetables.} 
0] {chocolate} 


7.3 ”示例 购物 篮 

之 前 列 出 的 编号 1 ~ 10 的 每 一 条 交易 都 代表 购物 者 购买 的 一 篮 丙 品 。 这 些 通 常 是 与 一 笔 特定 的 交易 或 者 友 票 相关 联 的 所 有 交 
易 项 目 。 括 号 {} 括 起 来 的 内 容 代表 一 个 购物 得， 称 为 项 目 集 。 一 个 项 目 集 是 一 组 一 起 出 现 的 商品 项 。 

购物 篮 算法 按 以 下 形式 构建 规则 : 

Itemset{x1,x2,x3 ...} -=-> Itemset{yl,y2,y3...}. 


这 个 符号 表示 那些 购买 了 该 公式 左边 (lhs) 商品 的 买 家 倾向 于 购买 公式 右边 (rhs) 的 商品 。 这 个 联系 可 以 由 3 符号 表示 ， 
可 以 理解 为 一 种 暗示 。 


符号 的 左边 代表 先例 ， 而 符号 的 右边 代表 推论 结果 。 如 果 左 右 两 边 都 是 空 的 ， 那 么 就 意味 着 这 些 商 品 项 目 之 间 没 有 特定 的 关 
联 规则 ; 不 过 这 也 意味 着 这 些 商 品 项 目 在 购物 篮 中 出 现 过 


7.4 天 联 规则 算法 


如 果 没 有 关联 规则 算法 ， 你 将 面临 非常 昂贵 的 计算 任务 ， 要 生成 所 有 可 能 的 项 目 集 组 ， 接 着 尝试 挖 扬 数 据 ， 以 便 确定 最 佳 项 
集 组 。 关 联 规则 算法 有 助 于 过 滤 这 些 任 务 和 尝试 。 


最 单 使 用 的 MBA 算 法 是 apriori 算 法 ， 包 含 在 arules 包 里 ( 另 一 种 常用 的 算法 是 eclat) 。 
运行 apriori 算 法 相当 人 简单。 我 们 会 使 用 刚才 输出 的 10 条 演示 交易 项 目 集 。 


apriori 算 法 基于 这 样 的 原则 : 如 果 某 一 个 特定 的 项 目 集 高 频 友 生 ， 那 么 它 的 所 有 子 集 也 必须 是 高 频 友 生 的 。 这 个 原则 本 身 
有 助 于 减少 需要 评估 的 项 目 集 数 量 ， 因 为 它 只 需要 先 查 看 最 大 的 项 目 集 ， 然 后 才能 过 滤 挥 一 些 东 西 : 


options (digits = 2) 


接着， 运行 aptiofi 算 法 。 不 过 ， 只 在 Groceties 数 据 集 的 第 10 一 19 行 运行 该 算法 ， 因 为 我 们 现在 想 保持 小 量 输出 。 我 们 也 会 
调整 参数 supp= 和 参数 conf= ， 来 产生 足够 的 输出 ， 这 样 我 们 可 以 在 下 一 节 中 举例 说 明 某 些 要 点 : 


rules <- apriorli (Groceries[10:19], parameter = list(supp = 0.1, 
conf = 0.6)) 


- 输出 表明 创建 了 2351 条 规则 。 这 是 一 个 大 批量 的 规则 ， 和 我 们 正在 检查 的 10 条 交易 有 关 。 大 量 的 规则 是 由 于 指定 的 低 支持 
度 水 平 (0.10) 所 致 。 这 样 做 的 结果 是 只 产生 含有 单个 组 合 的 交易 。 上 日 志 生 成 的 警告 信息 也 表明 了 这 一 点 : 


ApPriori 


> 

> Parameter specification: 

> confidence minval smax arem aval originalSupport support minlen 
maxlen 

> 0.6 0 ee 1 none FALSE TRUE 0.1] 1 10 

~ Largqet Xt 
> rules FALSE 
> 
> 


闪避 OIL ControlL: 


> filter tree heap memopt load sort Verbose 

> 0.1 TRUE TRUE FALSE TRUE 2 TRUE 

> 

> Absolute minimum support count: 1 

> Warning in apriori (Groceries[10:19], parameter = list(supp = 0.1, 
conf = 

0.6)): You chose a very low absolute support count of 1. You might 
Tun Out 

of memory! Increase minimum support. 

> Set item appearances ...[0 item(s)] aone [0.00s]. 

> set transactions ...[22 item(s), 10 transaction(s)] done [0.00s]. 

> sorting and recoding items ... [22 item(s)] done [0.00s]. 

> creating transaction tree ... done [0.00s]. 

> checking subsets of size 1 2 34 56789 done [0.00s]. 

> writing ... [2351 rule(s)] done [0.00s]. 

> creating S4 object ... done [0.00s]. 


` 通过 支持 度 对 规则 进行 分 类 ， 这 是 衡量 不 同 项 目 发 生 频率 的 重要 评价 指标 之 一 。 下 一 节 将 对 此 进一步 讨论 : 


rules <- sort (rules, by = "support", decreasing = TRUE) # 'high-— 
confidence' rules. 


. 使 用 arules 的 inspect 逊 数 查 看 前 5 个 规则 。 指 定 输 出 列 : 索引 编号 (空白 表 头 ) 、lhs (左边 ) 、ths (右边 ) 、 支 持 度 、 置 信 
度 和 提升 度 。 注 意 ， 每 一 个 支持 度 和 置信 度 的 测量 至 少 应 该 等 于 之 前 指定 的 aptiofi 函 数 调用 中 指定 的 参数 : 


lnspect (head (rules, 5)) 


输出 如 下 : 


1hs rhs support confidence | 
{bottled water} {tropical fruit} 0.2 1.00 
{tropical fruit} {bottled water} 0.2 0.67 


{cereals! {whole milk} 0.1 1.00 
{chicken} {tropical fruit} 0.1 1.00 
{sodal! {rolls/buns! 0.1 1.00 





7.5 先例 和 后 果 


前 面 所 示 的 规则 表示 为 先例 (左边 ) 和 后 果 (右边 ) 之 间 的 上 暗示 关系 。 


第 一 个 规则 表示 买 了 一 瓶 水 的 顾客 也 买 了 一 泽 热 市 水 果 。 第 三 个 规则 表示 购买 麦片 的 顾客 倾向 于 购买 全 脂 牛 奶 。 


7.6 ”评估 规则 的 准确 性 


现在 已 经 制定 了 3 个 主要 的 指标 来 稀 量 关联 规则 的 重要 性 或 者 准确 性 : 支持 度 、 置 信和 度 以 及 提升 度 。 


7.6.1 © 支持 度 


支持 度 测 量 这 些 项 目 如 何 同 时 频繁 地 出 现 。 想 象 一 下 ， 有 一 个 购物 车 ， 购 物 车 里 有 很 多 组 合 的 商品 项 目 。 某 些 很 少 出 现 的 项 
目 可 以 排除 在 分 析 之 外 。 当 一 个 商品 项 目 频 繁 出 现 ， 会 对 这 些 项 目 乙 间 的 关联 产生 更 多 的 置信 度 ， 因 为 它 将 会 是 一 个 更 受 欢 迎 的 
商品 项 目 。 通 弟 你 的 分 析 会 集中 在 高 支持 度 的 商品 项 目 上 。 


7.6.2 ”计算 支持 度 


计算 支持 度 很 简单 。 先 计算 在 规则 内 商品 项 目 出 现在 购物 锋 中 的 次 数 ， 再 除 以 在 商品 项 目 集中 出 现 的 次 数 的 比例 。 
示例 


. 我 们 可 以 发 现 第 一 个 规则 (索引 63) ，{fbottled watef} 和 {tropical fruit} 共同 出 现在 一 笔 交 易 中 以 及 出 现在 不 同 的 交易 中 (2 
和 和 3) ， 此 规则 的 支持 度 是 2/10 或 20%。 


` 最 后 一 个 规则 显示 ， 规 则 (索引 3) 有 0.10 的 支持 度 ，soda 和 trolls/buns (面包 圈 / 小 圆 面包 ) 只 在 10 条 交易 中 出 现 过 一 次 


(1/10) 。 


7.6.3 ”置信 度 
置信 和 度 是 右边 (rhs 或 后 果 ) 的 事件 会 出 现 的 条 件 概率 ， 左 边 (Ihs 或 先例 ) 给 定 的 商品 项 目 已 经 发 生 了 。 可 以 通过 计算 在 交 
易 中 出 现 的 次 数 来 手动 计算 。 
例如 ， 仔 细 看 看 下 面 的 规则 : 
-ftropical fruit} => {bottled water} 。 
` 我 们 可 以 看 到 热带 水 果 (tropical fruit) 发 生 在 三 个 不 同 的 交易 项 目 集 (项 目 集 2、3、6) 中 ， 因 此 公式 的 分 母 是 3。 


- 这 三 个 项 目 集中 ， 瓶 装 水 〈bottled watet) 出 现 了 两 次 〈 仅 在 项 目 集 2 和 3， 项 目 集 6 中 则 没有 出 现 ) ， 因 此 置信 度 是 2/3 或 
者 67%。 同 时 也 要 注意 ， 对 于 翻转 的 项 目 集 {bottled watet}=>{ttopical fruit} 来 说 ， 置 信 度 反而 更 高 了 ， 因 为 每 次 购买 瓶装 水 也 会 
购买 热带 水 果 ， 你 可 以 很 容易 通过 检查 并 手动 进行 元 素 计 数 来 验证 。 


7.6.4 提升 度 
通过 用 结论 的 独立 概率 除 以 刚才 计算 的 置信 和 度 来 决定 提升 度 。 比 起 支持 度 和 置信 和 度 ， 提 升 度 是 一 个 更 好 的 测量 ， 因 为 它 结 合 
了 两 者 的 特点 。 


要 计算 第 二 个 规则 的 提升 度 (索引 64) ， 我 们 只 需要 确定 刚才 计算 出 来 的 结论 的 无 条 件 概率 。{bottled water} 在 10 次 交易 
中 出 现 了 2 次 (20%) ， 作 为 结论 ， 用 0.67 除 以 0.20， 得 到 3.4， 这 就 是 规则 64 的 提升 度 。 


这 


之 间 不 存在 关系 。 
比 你 预期 的 规则 要 更 多 ， 


评估 提升 度 
评估 时 请 考虑 如 下 因素 : 
评估 提升 度 的 指标 时 ， 使 用 1 作为 提升 度 测 量 的 基线 ， 因 此 提升 度 1 意味 着 前 因 和 结论 
随 着 提升 度 的 值 增加 ， 它 将 有 助 于 你 定位 更 妙 的 规则 。 如 果 你 能 够 确定 具有 高 置信 度 的 规则 
可 能 会 引领 通过 奖励 顾客 再 次 购买 相同 的 或 者 类 似 的 产品 来 增加 收益 
要 该 输入 文件 。 如 果 你 友 现 输入 中 存在 错误 ， 该 检查 可 能 束 是 必要 的 。 在 
鸭 效 : 


一 有 了 全 忌 
人 上 FT 


取 人 交易 文件 
函数 输入 Groceries 数 据 


该 
数 直接 检查 


7.7.1 


TRUE) 


我 们 可 以 使 用 file.show () 
代码 中 已 经 把 它 注释 掉 了 ， 但 是 我 们 鼓励 你 自己 尝试 使 用 一 下 


使 用 read.csv () EE 
knitr 库 主要 用 于 显示 格式 化 的 文本 输出 。 如 果 你 愿意 ， 可 以 试 试用 head 或 print 遂 数 蔡 换 kable 函 数 


二 Latl) 
1brary (saldr) 
library (knitr) 
setwd("C:/PracticalPredictiveAnalytics/Data") 
stringsAsFactors 设 置 为 FALSE， 因 为 稍 后 我 们 会 把 变量 作为 字符 串 来 处 理 
strip.white 
样 做 是 因为 我 


F ) 
< 一 Tead.csv("OnlLline Retail.csv", 
SO set the output directory 


将 


Gotlecns (SEINGSASEFaCtoOrSs 
OnlineRetail 
setwd("C:/PracticalPredictiveAnalytics/Outputs") 


#we are done reading, 
7.1.2 capture.output 也 站 
以 下 这 段 代码 也 演示 了 capture.output () 函数 。capture.output () 消 数 为 原始 输入 文件 保存 元 数据 
们 想 要 跟 踊 输入 时 做 的 修订 ， 并 上 且 在 不 同 的 时 间 点 采集 相同 数据 帧 的 内 容 。 这 样 我 们 束 能 保存 元 数据 的 值 ， 并 在 不 同 的 时 间 点 对 
# Save it in case we need to look at the metadata later on. 
OnlineRetail.Metadata <- capture.output (str (OnlineRetall)) 
We can see that the capture.output contains the output of 
and that there are 541,909 observations 


它们 进行 比较 : 


# Print it now 
the original str function, 


> ci debe Metadata, sep = “\n") 
"data. frame" 541 909 obs. of 8 variables: 


$ TnvoiceNo : chr “536365” "536365” "536365” "536365”... 
$ Stockcode : chr "85123A™” "71053” "84406B” "84029G”... 
$ Description: chr “WHITE HANGING HEART T-LIGHT HOLDER™ "WHITE METAL LANTERN” “CREAM CUPID HEARTS COAT HANGER™” “KNITTE... 


$ Quantity : int 668662666 32 

$ InvoiceDate: chr “12/1/2010 8:26” "12/1/2010 8:26™ "12/1/2010 8:26” "12/1/2010 8:26”... 
$ UnitpPrice : num 2.55 3.39 2.75 3.39 3.39 7.65 4.25 1.85 1.85 1.69 ... 

$ CustomerID : int 17850 17850 17850 17850 17850 17850 17850 17850 17850 13047 ... 

$ Country : chr “United Kingdom™ “United Kingdom™ “United Kingdom™ “United Kingdom”... 





将 stringsAsFactors 设 置 为 TRUE: 


options (stringsAsFactors = TT) 


7.8.1 分 析 友 票 日 期 


我 们 还 可 以 看 到 InvoiceDate ( 友 票 日 期 ) 的 分 布 图 。 不 过 首先 ， 原 来 的 日 期 数据 需要 转换 成 日 期 格式 (Capture.output 将 
日 期 显示 为 一 个 字符 串 ) 并 且 先 做 了 排序 : 


InvoiceDate <- gsub(™" .x*x3"， "", OnlineRetailsInvoiceDate,) 
InvoiceDate <- (as.Date (InvoiceDate, format nom 
InvolijceDate <- sort (InvoiceDate, decreasing FALSE) 


观察 str () 国 数 的 输出 ，InvoiceDate 现 在 已 经 是 日 期 格式 了 : 
> str(InvoliceDate) 


输出 如 下 : 


Datel leoal909lr TormaEes “ 芝 愉 得 二 二 站 入 ”站 届 二 上 
加 二 二 二 本 用” 


我 们 可 以 从 head 和 tail 命 令 以 及 图 中 看 出 ， 数 据 中 包含 了 从 12/1/2011 到 12/9/2011 的 友 票 ， 也 可 以 看 到 12 月 假期 前 后 的 几 
笔 霜 单 : 


> head(as.data.frame (InvolceDate) ) 


输出 如 下 : 
InvolceDate 
1 2010-12-01 
2 UTL0=12=1 
3 OLY] 
4 U1TO012-01 
SY LLU-L2—0l 
6 2010-12-01 


类 似 地 ， 输 出 文件 中 的 最 后 6 条 记录 。 这 些 记录 包含 了 最 近 的 日 期 : 


> tail(as.data.frame (InVOoLCeDate ) ) 


结果 如 下 : 


InvolceDate 
541904 2011-12-09 
541905 2011-12-09 
dU ZUL1= L122=09 
D541907 2011-12-09 
D419308 2011—12—0Y9 
0541909 2011-—12—09 


7.8.2 绘制 日 期 


个 别 日 期 和 标签 绘制 起 来 太 密集 ， 因 此 我 们 将 日 期 缩短 为 Month/Year。 


特 移 从 友 票 日 期 中 提取 年 和 月 (也 丈 是 YYYY-MM-DD 的 前 7 个 字符 ) ， 并 且 使 用 table () 函数 得 到 计数 值 ， 然 后 绘制 结 
果 。 你 可 以 看 到 最 后 一 个 月 的 交易 低 于 前 几 个 月 的 交易 ， 因 为 数据 只 到 12 月 9 号 : 


par(las = 2) 


barplot (table (substr (InvoiceDate,1,7)), cex.lab = 1, cex.main = 1.5, 
cex.names = 工 ， 
col = c("blue"),main="Invoices by Year/Month") 


Online Retail ( 频繁 项 ) 


hanglng sign lunch metal cake christmas deslgn vintage retrospot heart 





7.9 ”净化 和 清 先 数据 


清洗 的 部 分 来 了 ! 


输出 包含 在 OnlineRetail 描 述 字 段 中 的 部 分 商品 杂货 : 
kable (OnlineRetail$Description[1:5],col.names=c ("Grocery Item 
Descriptions")) 
|Grocery Item Descriptions 
IWHITE HANGING HEART T-LIGHT HOLDER 
IMETAL METAL LANTERN 
ICREAM CUPID HEARTS COAT HANGER | 
| 
| 


| KNITTED UNION FLAG HOT WATER BOTTLE 
|RED WOOLLY HOTTIE WHITE HEART. 


虽然 每 一 行 都 包 售 了 一 个 单独 的 杂货 项 目 信息 ， 但 这 些 项 目 格 式 是 统一 的 。 同 时 ， 摘 述 每 一 个 项 目的 字数 可 以 变化 ， 并 且 菏 
些 词 是 形容 词 ， 某 些 词 是 名 词 。 此 外 ， 零 售 商 可 能 认为 某 些 词 与 某 个 特定 营销 活动 无 关 (如 颜色 、 尺 寸 ， 它 们 可 能 是 所 有 产品 的 


能 是 
标准 ) 。 这 种 数据 类 型 可 以 成 为 半 结 构 化 数据 ， 因 为 它 包 含 了 结构 化 数据 的 定义 (主要 对 象 只 是 杂货 ， 全 部 大 写 ， 已 知 有 哪些 产 


品 ， 等 等 ) 


品 ， 等 等 ) ， 还 有 一 些 非 结构 化 的 元 素 (不 同 的 产品 名 字 长 度 ， 具 有 文本 字符 串 的 变化 性 质 ) 。 为 了 获得 最 理想 的 结果 ， 非 结构 
化 数据 (如 文本 ) 通常 须 进 行 净化 和 清洗 ， 成 为 一 种 适合 分 析 的 格式 。 幸 运 的 是 ， 有 些 R 函 数 可 以 帮助 你 达到 这 些 目 的 。 


7.9.1 移 除 不 必要 的 字符 空格 


我 们 可 以 从 移 除 每 个 产品 描述 中 的 首尾 空格 开始 ， 因 为 这 些 空格 对 于 分 析 没 有 意义 ， 并 且 会 占用 额外 的 空间 。trimws 是 一 
个 可 以 方便 实现 这 个 操作 的 函数 ， 它 可 以 移 除 首 尾 空 格 。nchar () 函数 计算 了 一 个 字符 串 中 的 字 节 数 ， 在 
OnlineRetail$Description 上 执行 该 函数 ， 可 以 看 到 在 执行 字符 串 修 剪 前 后 节省 了 多 少 空间 : 


Sum (nchar (OnlineRetailS$Description)),) 
输出 如 下 : 
> [1] 14284888 


继续 执行 以 下 代码 : 


OnlineRetails$sDescription <- trimws (OnlineRetailsDescription) 
sum(nchar (OnlineRetailsDescription),) 


输出 如 下 : 


> [1] 14283213 


trimws 消 数 减 少 了 Description 的 大 小 。 使 用 该 函数 之 后 ， 字 符 的 忌 数 增加 了 吗 ? 这 会 是 检查 代码 的 一 个 提示 ! 


7.9.2 简化 摘 述 


使 用 颜色 选择 分 析 进 行 购物 篮 分 析 ， 本 身 是 一 个 有 赵 的 话题 。 不 过 ， 对 于 分 析 ， 我 们 会 移 除 某 些 颜色 来 简化 部 分 摘 述 。 使 用 


< 颜色 是 产品 描述 的 一 部 分 。 因 为 gsub () 遂 数 一 次 只 能 处 理 单 个 字符 串 或 模式 ， 所 以 需要 配置 


沙 数 移 除 某 些 特定 的 颜色 ， 这 
函数 多 次 传递 字符 串 到 gsub () 函数 。 


gsub_multiple 函 数 会 获取 一 个 字符 同 量 (x) ， 并 且 将 所 有 提供 的 字数 捉 转 换 为 对 应 的 值 。 在 这 个 例子 中 ， 我 们 希望 将 这 


些 字 符 串 从 文本 中 移 除 ， 因 此 字符 串 应 该 始终 是 ” 


asus mLItIDISG <— TUNcCtLONn(from, 二 DR XX} 4 


updated < 一 x 
tore tL TN LLenath (treom)} 4 
updated <- gsub (froml[l1i], tol[li], updated) 


} 
return (updated) 


} 


OnlineRetails$sDescription <-— 
gsub_multiple(c("RED", "PINK", "GREEN", "SMALL", "MEDIUM", "LARGE", "JUMBO", "STRA 


WBERRY"), rep("",8), OnlineRetail$Description) 


7.10 ”自动 移 除 颜 色 


如 果 你 不 想 为 了 特定 的 头 色 烦恼 ， 还 想 自 动 移 除 颜 色 ， 也 是 可 以 实现 的 。 


7.10.1 colors () 函数 
colors () 函数 返回 了 当前 色 板 中 使 用 的 颜色 的 列表 。 然 后 我 们 可 以 结合 刚才 使 用 过 的 gsub () 冰 数 执行 少量 代码 操作 
将 OnlineRetail$Description 中 的 所 有 指定 颜色 替换 为 空格 。 


我 们 还 可 以 使 用 kable () 函数 ， 该 函数 包含 在 knitr 包 中 ， 把 结果 数据 生成 为 简单 的 HTML 表 格 : 


# compute the length of the field before changes 
before <- sum(nchar (OnlineRetails$sDescription)) 


# get the uniqgque colors returned from the colors function, and remove any 
digits found at the end of the string 


# get the unique colors 
aol2 = Undue (guBt" [0 "Tm. SOLOLS DIRUEGY YY 


#Now we will filter out any colors with a length > 7. This number 1S 
somewhat arbitrary but it is Just done for lillustration, and to reduce 七 he 
number of colors to some of the more ‘popular' colors (RED, WHITE, GREEN, 
BLACK etc.) We may miss a couple ("STRAWBERRY"), but we can put them pback 
J]ater. 


for (1 in 1:length(col2)) 1 
eoOlZ|I1L| <= lfelse cnactecdzla yy S TL: Se COLZ2[L]) 


SOLz SE-=, UNLOUS LeoLZ) 


运行 代码 之 后 ， 表 此 检查 输出 确保 这 些 颜 色 都 是 你 想 要 的 : 


cat ("Unique Colors\n") 
> Unldue Colors 
kable (head (data.frame (col2), 10)) 


结果 输出 如 下 : 





Ole | 






























































7.10.2 ” 清 先 颜色 


清洗 颜色 时 ， 将 所 有 颜色 大 写 并 插入 分 隅 符 : 
Col <— topper (PasteU (col2, collapse = "|")) 


将 结果 传递 给 gsub () : 


cat ("Pass to gsub\n", head(col, 9)) 
> Pass to gsub 
> 


WHITE| |AZURE |BEIGE|BISQOUE|BLACK|BLUE|BROWN |CORAL|CYAN |DARKRED |DIMGRAY | GOLD | 
GRAY | GREEN | HOTPINK|IVORY |KHAKI |LINEN|MAGENTA|MAROON |NAVY |OLDLACE |ORANGE |ORC 


HID|PERU|PINK|PLUM|PURPLE|RED|SALMON|SIENNA|SKYBLUE|SNOW|TAN|THISTLE|TOMATO 
| VIOLET |WHEAT | YELLOW 


例如 ， 将 数据 帧 中 的 颜色 蔡 换 为 空格 : 
OnlineRetailsDescription <- gsubl(col, "", OnlineRetails$sDescription) 
检查 长 度 查 看 有 多 少 字 符 被 移 除 。 和 之 前 一 样 ， 输 出 移 除 前 后 的 字符 数 ， 确 保 Descri-ption 的 长 度 减少 一 些 : 


after <- Sum(nchar (OnlineRetailsDescript1ion),) 
print (before) 

> | I 

print (after) 

> [1|] 1334109 7 


检查 还 有 没有 其 他 的 颜色 。 尽 管 你 也 可 能 会 想 要 看 更 多 条 记录 ， 以 及 数据 集 不 同 部 分 的 中 的 所 有 记录 ， 但 此 处 只 查看 前 5 行 
记录 。 暂 时 保留 “Cream”， 不 过 ， 如 果 我 们 认为 它 对 分 析 没 有 帮助 的 话 ， 也 可 能 移 除 它 : 


kable (OnlineRetailsDescription[1:5],col.names=c ("Grocery Item 
Descorription™y)} 


前 5 行 记 录 如 下 : 
|Grocery ltem Description | 
IWHITE HANGING HANGING HEART T-LIGHT HOLDER | 
| WHITE METAL LANTERN | 
ICREAM CUPID HEARTS COAT HANGER | 
| 
| 


IKNITTED UNION FLAG HOT WATER BOTTLE 
|IWOOLLY HOTTIE WHITE HEART. 


因为 我 们 想 要 通过 一 篮 商 品 找 到 一 些 关 联 规 则 ， 所 以 我 们 还 想 过 滤 出 友 票 上 只 有 一 个 商品 的 交易 。 对 于 只 购买 一 个 商品 的 客 
户 进 行 单独 分 析 ， 这 可 能 是 有 用 的 ， 但 是 它 不 利于 友 现 多 个 商品 之 间 的 天 联 ， 这 是 本 次 练习 的 目标 。 


- 使 用 sqldf 找 出 所 有 单个 商品 的 交易 ， 然 后 创建 单独 的 数据 帧 ， 包 含 每 个 顾客 发 票 中 的 商品 的 个 数 : 


library (sqldf) 
. 首先 构建 一 个 查询 : 有 多 少 张 不 同 的 发 票 ? 我 们 发 现 有 25 900 张 单独 的 发 票 : 


sqldf ("select count (distinct InvoljceNo) from 
OnlineRetail") 

> Loading regquired package: tcltk 

> count (distinct InvolilceNo) 

> 1 25900 


.有 多 少 张 发 票 只 包含 单条 交易 ? 首先 ， 提 取出 单个 商品 的 发 票 : 


single.trans <- sqldf ("select InvoiceNo, count (*) as itemcount from 
OnlineRetail group by InvoiceNo having count (*)==1") 


接着， 把 它们 加 起 来 。 这 表明 没有 太 多 单个 交易 的 商品 (5841) : 


sum(single.trans$itemcount) 
> [1| 5841 


-SQL 查询 : 有 多 少 发 票 有 多 条 交易 ? 不 使 用 count (*) ==1， 使 用 count (*) >1 得 到 包含 
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x2 <— Sdqlat ("select InvolceNo，count (*) as itemcount from 
OnlineRetaill group by InvoiceNo having Count (*) > 1") 


sum (x2S5$itemcount) 
> [1] 536068 


:在 x2 中 列 出 每 个 发 票 中 商品 数量 的 列表 ， 以 确保 它们 都 至 少 有 两 个 商品 : 


kable (head (x2)) 


| InvolijceNo | itemcount | 
0 = :| 
G455 | 7 | 
1536366 | # 丧 
| | 12 | 
1536368 | 4 | 
1536310 | | 
930 2 | 2 | 
坦 看 分 布 


现在 我 们 可 以 看 一 看 商品 项 目 数 量 的 分 布 。 通 过 使 用 mean () 销 数 看 到 平均 项 目 数 是 27。 这 会 是 一 个 足够 大 的 可 以 进行 有 


意义 的 分 析 的 项 目 分 类 : 
mean (x25itemcount) 
结果 如 下 : 
> [1] 21 
我 们 也 可 以 绘制 出 一 个 直 万 图 : 


hist (x29$itemcount, breaks = 500, xlim = c(0, 50)) 


下 面 展 示 的 直方 图 显示 在 低 段 有 一 个 明确 的 高 位 计数 。 我 们 知道 这 个 极端 数据 包含 单个 交易 的 友 票 (count=1) ， 我 们 已 


经 将 它们 过 滤 出 去 了 : 


x2$itemcount 的 直方 图 


3 500 


3 000 





x2$1temcount 
我 们 可 以 通过 检查 itemcount 的 频率 表 来 验证 这 一 点 。 在 控制 台 运 行 以 下 的 table () 命令 : 
head (table (x251i1temcount)add,20) 
我 们 可 以 确认 单个 商品 项 目的 计数 不 再 出 现在 结果 中 : 


> eaa(taDle(x231TtemCounNt) ,ZU 


3 6 7 8 9 10 1 12 13 14 LL 16 17 18 19 20 21 
1612 1095 815 788 670 652 631 629 553 373 496 519 521 548 569 454 434 481 438 408 


7.12 ”将 结果 合并 到 原始 数据 中 


我 们 想 要 将 每 张 友 票 中 的 项 目 忌 量 的 个 数 保留 到 原始 数据 帧 中 。 这 需要 将 每 张 友 票 包 合 的 项 目 数量 加 回 原始 交易 ， 使 用 
merge () 函数， 并 指定 Invoicenum 为 Key 值 。 


如 果 在 合并 前 后 对 不 同 的 友 票 进行 计数 ， 可 以 看 到 友 票 数 低 于 合并 之 前 的 数量 : 


#first 七 ake a before snapshot 


nrow (OnlineRetaill) 
> [1] 541909 


#count the number of distinct invoices 


sqldf ("select count (distinct InvoiceNo) from OnlineRetail") 
显示 的 输出 结果 是 有 25 900 张 不 同 友 票 : 


> Count (distinct InvoliceNo) 
> 1 2 


现在 将 计数 合并 到 原始 数据 中 : 
OnlineRetail <- merge (OnlineRetail, x2, by = "InvolceNo") 


检查 新 的 行 数 和 不 同 友 票 的 新 计数 (20 059 与 25 900) 。 注 意 将 这 些 计数 和 原始 计数 比较 。 计 数 减 少 的 原因 是 只 有 一 个 项 
目的 友 票 被 移 除了 : 

> nrow (OnlineRetall) 

[4|. S36068 

> sqldf ("select count (distinct InvoiceNo) from OnlineRetalil") 


Count (distinct InvolilceNo) 
1 20059 


输出 OnlineRetail 表 以 及 合并 的 itemcount: 
kable (OnlineRetail[1:5, 


1:9],col.names=c ("Inv#", "StockCode", "Desc", "Ouant", "InvDate", "UnitPrice", "Cc 
ustID","Country","ItemCount"), padding = 0) 


itemcount 出 现在 表格 中 的 最 后 一 列 : 


| Invt#t | StockCode |Desc IQuant |InvDate 
IUNntPricelCustID|Countevy 


1536365184406 | CREAM CUPID HEARTS COAT HANGERI BIL 2040 B26| 


2.8| 17850|United Kingdonml| 7 | 
[535303065|22.7952 I SET /7 BABUSHKA NESTING BOXES | 21ll2/L2010. B3226| 
71.6| 17850|United Kingdoml| 7 | 
I9303065|18512Z3A | HANGING HEART T-LIGHT HOLDER | ol1l2/1/2010 8326| 
2.5| 17850|United Kingdoml| 了 | 
1536365184029P |IWOOLLY HOTTIE HEART. | G12/472010 S326| 
3.4| 17850|United Kingdonml| 好 | 
1 06 | IMETAL LANTERN 四 


3.4| 17850|United Kingdonml| 7 | 


7.13 ”使 用 camelcase 压 缩 描述 


对 于 较 长 的 摘 述 ， 有 时 将 摘 述 压缩 到 camelcase 会 有 利于 提高 可 读 性 。 特 别 是 当 碍 看 的 描述 同时 也 是 x 或 y 轴 的 标签 时 。 


编程 人 员 有 时 使 用 camelcase 来 编写 复合 词 ， 先 移 除 空格 ， 然 后 把 每 个 单词 的 首 字 母 变 成 大 写 。camelcase 也 是 一 种 节省 空 
间 的 方法 。 


为 了 做 到 这 一 点 ， 我 们 可 以 写 一 个 叫 作 .simpleCap 的 遂 数 。 为 了 展示 它 的 工作 效果 ， 我 们 将 输入 一 个 二 元 字符 向 量 c ("A 


certain good book"，"A very easy book") ， 并 观察 运行 结 


7.13.1 自 定义 函数 映射 到 camelcase 

这 是 一 个 函数 使 用 的 简单 例子 ， 该 国 数 将 两 个 字符 的 向 量 c ("A certain good book"，"A very easy book") 映 映 到 
camelcase。 该 向 量 映射 到 两 个 新 的 元 素 : 

[1] "ACertainGoodBook", and [2] "AVeryEasyBook" 


# change descriptions to camelcase maybe append to itemnumber for 


uniqueness 
.SimpleCap <- function(x) 1 
# s <—- strsplit(x, ' ')[[1]] 
S <™ StLISDLICt(IETOLOWNerE tH ™ MLL1] 
aa <- paste(toupper(substring(s, 1, 1)), substring(s, 2), sep = "", 
collapse = "” ") 
oun Th da. Fied = TRUE) 


a <- Cc("A certain good book", "A very easy book") 
a4 <—- gsub(™" ", "", .simpleCap(a), fixed = TRUE ) 
ad 

> [1] "ACertainGoodBook" 

lapply (a, .simpleCap) 

[ [了 

[1] "ACertainGoodBook" 


[ [21]] 
[1] "AVeryEasyBook" 


V V V VvV V 


使 用 .simpleCap 函 数 创建 一 个 换 述 OnlineRetail 数 据 集 的 新 版 本 ， 称 其 为 Desc2， 移 除 空 格 并 将 每 个 单词 的 首 字 母 变 成 大 


可 


OnlineRetails$sDesc2 <- lapply(as.character (OnlineRetailsDescription), 
. SimpleCap) 


kable (OnlineRetail[1l:5, c(3, 10)], padding = 0) 


IDescription 


ICREAM CUPID HEARTS COAT HANGER ICreamCupidHeartsCoatHanger 
ISET 7 BABUSHKA NESTING BOXES | Set7BabushkaNestingBoxes 


IWHITE HANGING HEART T-LIGHT HOLDERIWhiteHangingHeartT-lightHolderl 
IWNOOLLY HOTTIE WHITE HEART. INoollyHottieWhiteHeart. | 
IWHITE METAL LANTERN IWhiteMetalLantern | 





7.13.2 提取 最 后 一 个 单词 


通常 产品 描述 的 第 一 个 和 最 后 一 个 单词 包含 了 有 用 的 信息 ， 并 且 有 时 你 可 以 使 用 一 个 词 或 短语 代 蔡 原本 较 长 的 描述 。 情 况 可 
能 并 不 总 是 如 此 ， 但 值得 一 试 。 为 了 提取 摘 述 中 的 最 后 一 个 单词 ， 我 们 可 以 使 用 stringr 包 中 的 word 函 数 。 


library (stringr) 

OnlineRetailslastword <- word(OnlineRetailsDescription, -1) #supply -1 to 
extract the last word 

OnlineRetails$Description <- trimws (OnlineRetailS$Description, "1") 
OnlineRetailsfirstword <- word(OnlineRetailsDescription, 1) 

# use head (OnlineRetail) if you are no using Rmarkdown 


kable (OnlineRetail[1i:5, c(3, 10:12)], padding = 0) 


firstword (第 一 个 单词 ) 出 现在 以 下 结果 的 最 后 一 列 |: 


IDescription 


ICREAM CUPID HEARTS COAT HANGER ICreamCupidHeartsCoatHanger 
1SET 7 BABUSHKA NESTING BOXES 1Set7BabushkaNestingBoxes 


1WOOLLY HOTTIE WHITE HEART. IWNOoOllyHottieWhiteHeart. 1HEART. 
IWHITE METAL LANTERN IWhiteMetalLantern ILANTERN 
> | 


| 
| 
IWHITE HANGING HEART T-LIGHT HOLDER|IWhiteHangingHeartT-lightHolder|HOLDER | 
| 
| 





为 了 查看 lastword 了 映射 是 否 合理 ， 我 们 会 将 结果 进行 排序 ， 这 样 就 可 以 看 到 发 生 频 率 最 高 的 末尾 单词 。 最 终 可 以 使 用 该 信 
息 来 创建 子 类 产品 目录 ， 如 Cases ( 箱 ) 、Bags (和 伐 ) 、Signs (标签 ) ， 等 等 : 


kable (head(as.data.frame (sort (table (OnlineRetails$slastword[]), decreasing = 
TRUEYY. 
L100)Y) 


排序 结果 显示 在 控制 合 。 注 意 ， 昌 然 kable () 阔 数 的 默认 输出 在 控制 台 显 示 为 一 个 纯 文本 ， 但 被 格式 化 为 一 个 表格 的 形 
The 


lastword 的 摘 述 看 起 来 可 以 利用 (除了 大 量 的 NA 以 外 ) ， 但 是 我 还 是 要 将 这 些 列 保留 为 分 析 数 据 集 的 一 部 分 








13528 | 
13013| 
12939| 
12210| 
108881 
9723| 






9056| 
7868 | 


7.14 ”创建 测试 和 





练 数据 集 


现在 转换 已 经 完成 了 ， 我 们 将 创建 训练 和 测试 数据 帧 。 将 数据 集 一 分 为 二 ， 分 为 训练 集 和 测试 集 : 


# Take a sample of full Vector 

nrow (OnlineRetail) 

>» [4111 与 36068 

pctx <—- round(0.5 * nrow (OnlineRetall)) 
set.seed(1) 


# randomize rows 


df <- OnlineRetail[sample (nrow (OnlineRetalil)), | 
rows <— nrow (df) 
OnlineRetail <- df[1i:pctx, |] #training set 


OnlineRetail.test <- df[(pctx + 1):rows, ] #test set 
rml(df) 


# Display the number of rows in the training and test datasets. 


nrow (OnlineRetail) 

> [1] 268034 

nrow (OnlineRetail .test) 
> [1] 268034 


7.14.1 保 和 仔 结 果 


定期 保存 数据 帧 是 一 个 好 想法 ， 这 样 你 可 以 从 不 同 的 检查 点 获取 分 析 。 


在 这 个 例子 中 ， 我 会 首先 将 训练 数据 集 和 测试 数据 集 按 InvoiceNo 进 行 排序 ， 然 后 将 训练 数据 集 和 测试 数据 集 保 存 到 磁盘 ， 
从 磁盘 中 我 可 以 按 需 随时 将 它们 加 载 到 内 和 存 中 : 


setwd("C:/PracticalPredictiveAnalytics/Data") 
OnlineRetail <- OnlineRetail [order (OnlineRetails$sInvoiceNo), | 
OnlineRetail.test <- OnlineRetail.test[lorder (OnlineRetail.test$InvoiceNo), 


] 


save (OnlineRetail,file='OnlineRetail.full.Rda') 
save (OnlineRetail.test,file='OnlineRetail.test.Rda') 


load('OnlineRetail.full.Rda') load('OnlineRetail.test.Rda') 


nrow (OnlineRetail) 

> [1] 268034 

nrow (OnlineRetail .test) 
> [1] 268034 

nrow (OnlineRetail) 

> [1] 268034 


在 这 一 时 间 点 上 ， 我 们 已 经 准备 好 了 分 析 数 据 集 并 准备 继续 进行 实际 分 析 。 
如 果 你 愿意 ， 可 以 用 以 下 的 万 法 将 整个 工作 区 保存 到 磁盘 中 : 


save.image (file = "ch6 part 1.Rdata") 


7.14.2 ”加 载 分 析 文 件 


如 果 你 还 在 一 个 会 话 中 ， 而 OnlineRetail 一 直 在 内 存 里 ， 正 好 ! 不 过 如 果 你 要 从 刚才 我 们 停止 的 地 方 开始 做 起 ， 你 需要 加 载 
上 一 个 会 话 中 保存 的 数据 。 开 始 先 设置 工作 目录 ， 然 后 加 载 OnlineRetail 训 | 练 数据 集 : 


mildest = Ll)) 
setwd("C:/PracticalPredictiveAnalytics/Data") 
load ("OnlineRetail.full.Rda") 

# works for small data 

OnlineRetail <- OnlineRetail[1:10000,] 


cat (nrow (OnlineRetail), "rows loaded\n") 
> 10000 rows loaded 


上 一 步 的 cat 消 数 应 该 显示 训练 数据 集中 的 行 数 ， 即 268 034。 


7.14.3 ”确定 后 续 规则 


我 们 已 经 在 数据 准备 阶段 看 到 ， 每 一 张 友 票 产生 了 大 量 的 项 目 集 。 为 了 证 明 该 算法， 我 们 将 从 每 个 产品 摘 述 中 提取 一 个 代表 
词 ， 并 使 用 这 个 词 作为 构建 关联 规则 的 结果 (或 者 右边 项 rhs) 。 我 们 已 经 保存 了 每 个 产品 描述 中 的 第 一 个 和 最 后 一 个 词 。 要 仔 
细 检 查 这 些 单词 ， 看 看 是 否 可 以 过 滤 挥 一 些 ， 从 而 形成 一 组 可 管理 的 交易 记录 。 


让 我 们 移 控 降序 预 上 产品 朱 述 的 第 一 个 词 和 最 后 一 个 词 的 频率 。 这 样 我 们 融 可 以 获取 天 于 哪些 产品 受 欢 迎 的 最 新 情况 : 


library (arules ) 
Loading required package: Matrix 


> 
> 
> Attaching package: ‘arules' 

> The following obJjects are masked from ‘package:base': 
> 

式 abbreviate, write 

library (arulesViz) 

> Loading requlired package: grid 


输出 描述 中 常用 的 第 一 个 词 。 我 们 将 按 降序 排列 第 一 个 词 的 频率 : 


kable (head(as.data.frame (sort (table (OnlineRetails$sfirstword[]), decreasing = 
工具 UBEY 。 Uy) 


sort(table(OnlineRetall$firstword[]), decreasing = TRUE) 


SET 17 381 
BAG 8 720 
LUNCH 7 692 
RETROSPOT 1399 
PACK 6 861 
VINTAGE 6 204 
HEART 4 799 
HANGING 4 457 
DOORMAT 4175 
REGENCY 3 452 


同样 ， 输 出 摘 述 中 常用 的 最 后 一 个 词 : 


kable (head(as.data.frame (sort (table (OnlineRetail$lastword[]), decreasing = 


TRUEY)'Y.s 
LU 
sort(table(OnlineRetall$lastword[]), decreasing = TRUE) 
18 370 
DESIGN L213 
HOLDER 6 792 
( 续 ) 
BOX 6 528 
RETROSPOT 6 53517 
SIGN 6 184 
CASES 3 465 
BAG 4 820 
SET 4 418 
CHRISTMAS 3 903 


从 常用 专 有 词 来 看 ， 许 多 交易 涉及 购买 Boxes ( 盒 ) 、Cases ( 箱 ) 、Signs (标签 ) 、Bags ( 袋 ) 等 。 


7.14.4 ”替换 缺失 值 


我 们 从 lastword 的 频率 可 以 看 出 存在 空白 值 。lastword 似 乎 主要 是 名 词 ，firstword 似 乎 是 形容 词 和 名 字 的 混合 
(Bag ( 袋 ) 、Heart ( 心 ) ) 。 如 果 我 们 把 文本 字符 串 看 作 一 个 词 袋 (Bag of Words) ， 我 们 可 以 合理 地 把 这 两 个 字符 串 组 合 
成 一 个 代号 和 象征。 不过， 我们 优先 考虑 lastword， 只 有 在 lastword 缺 失 的 情况 下 ， 用 firstword 的 值 填充 到 lastword 的 值 : 


# replace blank values in lastword, with first word. 
OnlineRetail$lastword <—- ifelse (OnlineRetail$lastword == "", 


OnlineRetail$firstword, 
OnlineRetail$l]lastword) 


这 样 处 理 之 后 ， 我 们 再次 查看 频率 ， 并 观察 到 空 日 值 已 经 消失 : 


head(as.data.frame (sort (table (OnlineRetails$slastword[]), decreasing = 
TRUE) ) ， 
10) 
> sort (table (OnlineRetails$slastword[]), decreasing = TRUE) 
> DESIGN | 
> HOLDER QTY92 
> RETROSPOT 6574 
> BOX Se 
> SIGN 6184 
> BAG oa 
> CASES 5465 
> SET 4418 
> HEART A4Q27 
> CHRISTMAS 4005 


7.14.5 ”制作 最 后 的 子 集 


基于 这 些 频 率 ， 我 们 把 数据 过 滤 出 只 包含 前 几 个 分 类 的 子 集 。 我 们 将 排除 一 些 不 适用 于 摘 述 产品 的 专用 词 ， 如 design ( 设 
计 ) 、set (集合 ) 以 及 任何 和 颜色 相关 的 专用 词 


# Testing OnlineRetail2 <- OnlineRetail 
OnlineRetail2 <- subset (OnlineRetail, lastword $1in% c("BAG", "CASES", 
THOLDER"™, 

“BO “STGN™ "CHRISIMAS”y "BOITLE™"y BUNLING™ “Me yy “BOWD™s 
"CANDLES", 

"COVER", "HEART", "MUG", "BOWL")) 


在 结果 上 再 次 运行 table () 匀 数 ， 查 看 新 的 频率 情况 : 


head(as.data.frame (sort (table (OnlineRetail2$5lastword[]), decreasing = 
TRUE) ) ， 
10) 
sort (table (OnlineRetail2s$5lastword[]), decreasing = TRUE) 
HOLDER 6792 
BOX 6528 
SIGN 6184 
BAG 5761 
CASES 5465 
HEART 4027 
CHRISTMAS 4005 
BOTTLE 317195 
BUNTING 3066 
MUG 2900 


V 


V V V V V V V Vv VV 


使 用 nrow () 函数 坦 看 有 多 少数 据 从 初始 数据 中 过 渡 挥 了 : 


cat (nrow (OnlineRetail), "Original before subsetting\n") 
> 268034 Original before subsetting 

cat (nrow (OnlineRetail2), "After Subsetting\n") 

> 55609 After Subsetting 


7.15 ”创建 购物 锯 交 易 文 件 


我 们 束 快 完成 了 ! 为 了 准备 购物 得分 析 的 数据 ， 还 需要 多 做 一 步 。 

天 联 规则 包 要 求 数据 是 交易 数据 格式 的 。 交 易 可 以 由 以 下 两 种 不 同 的 格式 中 的 任意 一 种 指定 : 

1) 每 个 项 目 集 的 交易 市 有 标识 符 ， 在 一 行 中 显示 出 整个 购物 篮 中 的 内 容 ， 残 像 我 们 表面 所 见 的 Groceries 数 据 。 
2) 单个 商品 项 目 ， 每 个 占 一 行 ， 并 市 有 标识 符 。 

此 外 ， 你 可 以 用 以 下 两 种 不 同 的 方式 的 任意 一 种 创建 实际 的 交易 文件 : 

1) 编写 一 个 物理 交易 文件 。 

2) 强制 将 一 个 数据 帧 变 成 交易 格式 。 


对 于 小 量 数据 ， 强 行将 数据 帧 变 成 一 个 交易 文件 比较 简单 ， 但 是 当 交 易 文 件数 量 很 大 的 时 候 ， 先 写 交 易 文 件 比较 好 ， 因 为 可 
以 从 大 型 操作 交易 系统 中 输入 附加 文件 。 两 种 方法 都 会 举例 说明 。 


7.16 “万 法 1: 强制 将 数据 帧 转换 为 交易 文件 


现在 我 们 准备 强制 转换 数据 帧 。 创 建 一 个 临时 的 数据 帧 ， 只 包含 交易 ID (InvoiceNo) 以 及 摘 述 符 (lastword) 。 


首先 ， 验 证 这 两 个 变量 的 列 名 和 编号 。 先 在 OnlineRetail2 上 运行 colnames， 从 而 我 们 看 到 它们 对 应 于 数据 帧 的 列 1 和 列 
12: 


colnames (OnlineRetailil2) 


> [1] "InvolilceNo" "StockCode" 全 Se 有 TOuantlity 
"InvolceDate™" 

> [6] “UnitPrice" "CustomerID" "Country" "ijtemcount™" "DESGZ" 
> [11] "lastword" “ 主 工 下 加 蕊 厅 让 节 间 … 


再 次 检查 ， 显 示 前 25 行 ， 指 定之 前 友 现 的 索引 : 


kable (head (OnlineRetail2[, c(i1, 11)], 5)) 


IInvoiceNo |lastworad | 


1536365 | HOLDER 
1536370 | BOX 
1536370 1BOX 
1536373 | HOLDER 
1536373 |BOTTLE 


面 
1 | EL 
面 





首先 ,创建 只 有 两 列 的 数据 帧 ， 这 两 列 命名 为 Transaction1D 和 和 ltems。 

tmp <- data.frame (OnlineRetail2[, 1], OnlineRetail2[, 11]) 
names (tmp) [1] <- "TransactionID" 

names (tmp) [2] <- "lItems" 

tmp < unigque (tmp) 


nrow (tmp) 
> [1|] 33102 


验证 结果 : 
kable (head (tmp)) 


以 下 为 输出 结果 : 


| IIransactionlID |Items 
| : 
1536365 | HOLDER 
1536370 | BOX 
1536373 | HOLDER 


1536373 |BOTTLE 
1536375 1HOLDER 





现在 使 用 split () 尔 数 基于 InvoicelD ( 列 1) 对 摘 述 (lastword 作 为 列 2) 进行 分 组 。as () 销 数 是 极为 重要 的 关键 字 ， 
为 它 将 拆 分 的 结果 转换 成 交易 格式 : 


Teansd w= EspBLIIt itmpls lr Le ys "tranmnsacetions™) 


7.16.1 ”检查 人 交易 文件 


一 旦 数据 被 强制 转换 为 交易 格式 ， 我 们 融 可 以 使 用 inspect 国 数 来 检查 数据 。 
检查 交易 文件 时 ， 不 会 直接 使 用 常规 的 btint 或 head 函 数 ， 因 为 检查 的 对 象 是 稀 朴 格式 。 要 用 inspect () 函数 替代 。 


如 果 你 碰巧 有 tm 包 ( 稍 后 也 会 使 用 它 ) ， 你 一 定 要 加 前 缀 arules: : inspect， 因 为 在 tm 包 中 也 有 一 个 inspect 国 数 ， 这 两 
个 国 数 支持 不 同 的 检查 功能 。 


如 果 你 在 前 5 条 记录 中 运行 了 inspect 命 令 ， 可 以 看 到 数据 是 购物 篮 格式 ， 也 就 是 说 ， 每 一 张 发 票 显示 一 个 项 目 集 ， 由 { 隔 
开 ， 并 且 和 每 张 发 票 相关 联 : 


arules::inspect (trans4[1:5]) 


二 1 七 ems transactionID 
> 1 {HOLDER} 人 个 二 心志 
> 2 {BOX} 总 五 二 了 
> 3 {BOTTLE, HOLDER,MUG} 536373 
> 4 {BOTTLE,HOLDER.} 30375 
> 5 {HOLDER} D041 


另外 一 个 展示 交易 的 方法 ， 不 使 用 inspect， 而 是 先 将 交易 强制 转换 成 一 个 矩阵 ， 然 后 将 项 目 显示 为 布尔 值 。 如 果 有 很 多 商 
品 项 目 ， 则 需要 找到 列 向 量 的 子 集 ， 这 样 才能 将 它们 都 显示 在 屏幕 上 : 


as {transd4;, "matrix")} [i155 135| 
» BAG BOTTLE BOWL BOX BUNTING 

> 536365 FALSE FALSE FALSE FALSE FALSE 
> 5363710 FALSE FALSE FALSE TRUE FALSE 

> 与 可口 了 了 FALSE TRUE FALSE FALSE FALSE 

> 536375 FALSE TRUE FALSE FALSE FALSE 
> 5363716 FALSE FALSE FALSE FALSE FALSE 

as(trans4, "matrix") [1:5, 6:ncol (trans4)]| 
> CANDLES CASES CHRISTMAS COVER HEART HOLDER MUG SIGN 
> 46305 FALSE FALSE FALSE FALSE FALSE TRUE FALSE FALSE 
> YU FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE 
” 03 > FALSE FALSE FALSE FALSE FALSE TRUE TRUE FALSE 
» 7 FALSE FALSE FALSE FALSE FALSE TRUE FALSE FALSE 
人 FALSE FALSE FALSE FALSE FALSE TRUE FALSE FALSE 


7.16.2 ”获取 topN 购 买 商 品 


即使 还 没 运行 任何 关联 规则 ， 我 们 也 能 得 到 topN (前 N 种 ) 商品 的 数量 ， 如 第 一 张 图 所 示 。 
如 果 寻 找 的 是 具有 某 个 支持 度 水 平 的 商品 ， 我 们 可 以 把 该 水 平 的 值 作为 消 数 的 一 个 参数 。 


第 二 张 图 是 绘制 商品 的 另外 一 种 方法 ， 它 把 支持 度 作为 一 个 筛选 器 ， 并 有 为 bags、boxes、cases 以 及 holders (器 严 ) 标示 
了 较 高 的 支持 度 : 


par (mfrow = c(i1, 2), bg = "white", col = c("blue")) 


ltemFregquencyPlot (trans4, topN = 10, type = "absolute", cex.names = 0.7) 
ltemFrequencyPlot (trans4, support = 0.2, cex.names = 0.75) 
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重 置 graphics 参 数 。 输 出 显示 null device， 表 示人 参数 已 重 置 : 


dev.off() 
> null device 
> 1 


7.16.4 ”检验 规则 摘要 


规则 长 度 分 布 代 表 了 出 现在 关联 左右 两 侧 的 项 目 集 的 数量 。 最 频繁 的 项 目 数量 是 3， 也 就 是 说 ， 购 买 过 两 件 商品 项 目 ， 意 味 
着 会 单 买 第 三 件 商品 ， 或 者 反 过 来 ， 单 买 了 一 件 商品 项 目 ， 也 可 能 会 再 买 两 件 商 品 项 目 。 


7.16.5 ”检验 规则 质量 并 观察 最 高 支持 度 


从 质量 指标 中 可 以 看 出 支持 度 、 置 信和 度 和 提升 度 的 分 布 。 质 量 消 数 提供 了 每 个 规则 的 支持 度 、 提 升 度 和 置信 和 度 。 你 也 可 以 通 
过 每 个 重要 指标 对 规则 进行 排序 ， 并 观察 哪 一 种 规则 的 指标 值 最 高 。 


我 们 可 以 从 低 支 持 度 的 分 布 看 出 ， 没 有 特定 的 项 目 集 出 现 得 明显 多 于 其 他 项 目 集 。 如 果 检 查 按 支持 度 水 平 排序 的 规则 ， 你 会 
发 现 最 高 的 支持 度 水 平 是 0.046。 请 注意 ， 这 与 摘要 中 提供 的 Max.support 水 平一 致 。 前 三 个 支持 度 水 平 对 应 的 是 那些 购买 
holders、boxes 或 signs 的 客户 : 


summary (rulesx) 


> set of 829 rules 

> 

> rule length distribution (lhs + rhs):sizes 

Es py 3 4 5 

> 196 438 20 15 

> Min. lst Qu. Median Mean 3rd Qu. Max. 

> 2.000 和 DD 3# 000 CW i 4.000 5.000 

- 

> summary of quality measures: 

> support confidence 11ift 

> Min. 人 Min. 2 Min. :1.000 
”aE Os U2210 ET lst Qu. :1.948 
> Median :0.02512 Median :0.5110 Median :2.393 
> Mean :0.02987 Mean emo Mean :2.444 
> Sd Oa.S0.03202 TO YU 7 Out2. B99 
> Max. 0. 09055 Max. sD Max. :5.419 
> 

> mining info: 

> data ntransactions support confidence 

> 七 ans4 下 0 .02 DL 


head (guality (rulesx)) #also look at the quality measures for each of the 


rules 

> support confidence 41 中 下 

> 1 VO.023940066 UU.z2119199 2.432156 

> 20.02394066 0.2095116 2.432156 

Us O209000 US 

> 4 0.02063591 0.1292548 1.500480 

5 Vddo28010 Uod raA00 ZZ U20819 

> .6 VU.02452816 0.1145949 2.026819 

tmp <- as.data.frame (inspect (head(sort (rulesx, by = "support"), 

> lhs rhs support confidence 11ift 

> 155 {BOX} => {HOLDER} 0.09884703 0.3417111 1.063075 
> 156 {HOLDER} => {BOX} US Us D3013166 41.0063015 
> 135 {HEART} => {HOLDER} 0.09620328 0.4768839 1.483602 
> 136 {HOLDER} => {HEART} 0.09620328 0.2992918 1.483602 
> 151 {BAG.} => {BOX} 0.09304546 QU.3859215 1 .334139 
> To2 1BOX} => {BAG.} 0.09304546 0.3216552 1.334139 
> 149 {SIGN} => {HOLDER} 0.09069545 0.4203540 1.307736 
> 150 {HOLDER} => {SIGN} 0.09069545 0.2821567 .3071736 
> 141 {CASES} => {BOX} 0.08511420 0.4048201 1.399451 
> 142 {BOX} => {CASES} 0.08511420 0.2942371 1.399451 

7.16.7” 过滤 大 量规 则 


一 旦 建立 了 规则 ， 我 们 可 以 使 用 专门 的 子 集 函 数 ， 从 关联 规则 的 左边 (lhs) 或 者 右边 (rhs) 的 项 目 集中 过 滤 掉 项 目 。 如 果 
你 正在 寻找 项 目 集中 的 特殊 项 ， 这 样 做 是 很 有 价值 的 。 


使 用 %in% 操 作 符 进行 精确 匹配 ， 或 使 用 %pin% 操 作 符 进行 部 分 匹配 : 


# to see what 


OE 


purchases imply. 


lhs.rules <- subset (rulesx, 
lhs.rules 
> set of 44 rules 
inspect (lhs.rules) 


Sy 

4 
26 
47 
49 
51 
53 
风光 
57 
D9 
61 
63 
565 
pe 汪 : 
254 
256 
pn 
9 
260 
pa 
263 
265 
266 
268 
269 
a 
212 
214 
2 
277 
278 
280 
281 
之 总 要 
284 
286 
Zo 
289 
290 
292 
293 
Sp 
296 
298 
299 
# what 


V VV VV VV VV VV VV VV VV VV VV VV VV VV VV VV VV VV VV VV VV VV VVV 


lhs 

{CHRISTMAS.} 
{CHRISTMAS} 
{CHRISTMAS.} 
{CHRISTMAS} 
{CHRISTMAS} 
{CHRISTMAS.} 
{CHRISTMAS.} 
{CHRISTMAS.} 
{CHRISTMAS} 
{CHRISTMAS} 
{CHRISTMAS} 
{CHRISTMAS} 
{BOTTLE, CHRISTITMAS } 
{CASES，CHRISTITMAS } 
{BOITTLE: CHRISTMAS 
{BAG, CHRISTITMAS } 
{BOTILE,， CHRISIMAS } 
{ BOX CHRESTMAS} 
BOTITILE;: CHRISTMAST 
{CHRISTMAS, HOLDER} 
{CHRISTMAS, HEART} 
{BAG, CHRISTMAS} 
{CHRISTMAS, HEART 
{BOX, CHRISTMAS} 
{CHRISTMAS, HEARTI 
{CHRISTMAS, HOLDER} 
{CASES,CHRISTMAS.} 
{BAG, CHRISTMAS} 
{CASES, CHRISTMAS} 
{BOX, CHRISIMAS } 
{CASES,CHRISTMAS} 
{CHRISTMAS, HOLDER} 
{CHRISTMAS, SIGN.} 
{BAG, CHRISTMAS} 
{CHRISTMAS, SIGN.} 
{BOX, CHRISTMAS} 
{CHRISTMAS, SIGN} 
{CHRISTMAS, HOLDER.} 
{BAG, CHRISIMAS } 
tBOXACHRLSIMAS 
{BAG, CHRISTITMAS } 
{CHRISTMAS, HOLDER} 
{BOX, CHRISTMAS} 
{CHRISTMAS, HOLDER 


二 > 
三 > 


subset = 


his 
{COVER.} 


{CANDLES} 


{MUG} 
{BOWL} 


{BUNTING.} 


{BOTTLE 
{HEART} 
{CNAS 
{SIGN} 
{BAG} 
{BOX} 
{HOLDER} 
{CASES} 
{BOTTLE } 
{BAG} 
BOTTLDES 
{BOX} 
{BOTTLE} 
{HOLDER} 
{BOTTLE} 
{BAG} 
{HEART} 
{BOX} 
{HEART} 
{HOLDER} 
{HEART } 
{BAG.} 
{CASES.} 
{BOX} 
{CASES} 
{HOLDER} 
CARERS 
{BAG} 
{SIGN} 
{BOX} 
{SIGN} 
{HOLDER} 
{SIGN} 
{BOX} 
{BAG} 
{HOLDER} 
{BAG} 
{HOLDER} 
{BOX} 


purchases yielded Candles? 


rhs.rules <- subset (rulesx, 


subset = 


lhs %pin% "CHRISTMAS") 


support 


rhs Spin% c("CANDLES")) 


Dy200635097 
0.02702504 
UO SY 
0.02680473 
0 人 
0.045253132 
-337108600 
0.04751414 
人 
0.04663289 
0.055300477 
Ul 33209 
DsUzZZll4 2 
0.02210472 
Uy 022Z830910 
UUQ2Z283910 
saw 
Ue 
Qe 2D 42 
QUaSD42223 
0.02004847 
0 . 
0 
0 
0 
0 
0 
0 
0 
0 
0 
0 
0 
0 
0 
0 
0 
0 
0 
0 
0 
0 
0 
0 


02004847 


.02203128 
“23LaD 
ZL 91 
UZ2ATL91 
.02291254 
.02291254 
.02548285 
ea A 2 
-Uaeri dl 
5 
“Ul S035 
“QL3TU35 
.02342660 
.02342660 
-2226566 
:QZ276566 
-U268781L1 
.02687817 
.02460160 
.02460160 
.02812661 
“U20l2661 


confidence 
0.1292548 
U1692732 
0.1490340 
D078933 
0.1890524 
.2054880 
了 
O2976081 
Dz221] 711 
Qs2920883 
0.3445262 
U.Sz2152z11 
0.4854839 
0.4652241 
U.S129 
0.4897638 
0.D467742 
0 .4526035 
SUUUUW 
UO. 4878398 
0.5405941 
0 .4299213 
< 
0 
0 
0 
0 
0 
0 
0 
0 
0 
0 
0 
0 
0 
0 
0 
0 
0 
0 
0 
0 
0 


53940594 


.4005340 
.6029406 
.4377682 
人 
.4913386 
区 
.4632844 
.4806801 
.4449213 
.6024845 
.4582677 
.6604555 
.42529012 
.6418219 
.4434907 
本 
.4886515 
a pe ens ol 
.4792561 
.3113485 
.D41719256 


es 
.200480 


PPAPAPOPOPAPPANDODODDODPOPAPODODDODPCPANONDOOPOPONDNOINDOIPPPAPAPPAPAPPPPFP 


.481358 
.060845 
“Lo 
UL 
了 
Wy 
.415484 
:QL 
.211504 
.191016 
.000282 
es 
了 
oa 
2 
LO 
了 
有 有 
.07D423 
“L239 
“L139 
D0 
.983465 
了 
:DQ36 
.000142 
.336904 
.854047 
.203473 
.495412 
ER 
.498943 
“3 
228083174 
fe 
“9G 
.05252484 
二 工业 
"Ua 
.641255 
070829 
人 QU 
.894162 


rhs.rules 


> set of 26 rules 
tmp <- as.data.frame (arules::inspect (head(sort (rhs.rules, by = "support"), 
LY] 
> lhs rhs SUpPDoOrt confidence 1ift 
> 46 {HOLDER} => {CANDLES} 0.04920320 0.1530729 1.339584 
> 44 {BOX} => {CANDLES} 0.04714695 0.1629855 1.426333 
> 38 {CASES} => {CANDLES} 0.03958287 0.1882641 1.647552 
> 42 {BAG} => {CANDLES} 0.03789381 0.1571733 1.375469 
> 36 {HEART} => {CANDLES} 0.03473599 0.1721878 1.506865 
> 40 {SIGN} => {CANDLES} 0.03429537 0.1589517 1.391031 
> 34 {BOTTLE)} => {CANDLES} 0.02908130 0.1833333 1.604402 
> 30 {BOWL} => {CANDLES} 0.02805317 0.2200461 1.925686 
> 252 {BOX, HOLDER} => {CANDLES} 0.02768598 0.2800892 2.451140 
> 32 {BUNTING} => {CANDLES} 0.02739223 0.1605682 1.405178 
inspect (head(sort (rhs.rules, by = "confidence"))) 
> lhs ak: Spotk confidence 1ift 
> 219 {BAG, HEART} =>. TCANDLESS 0.02056253 DD.3511588 3.0718342 
> 213 {BOWL, BOX} => {CANDLES} 0.02019534 0.3467844 3.034809 
> 216 {BOTTLE, HOLDER} => {CANDLES} 0.02026878 0.3183391 2.785876 
> 222 {BOX, HEART} => {CANDLES} 0.02247191 0.3122449 2.732544 
> 237 {BAG,SIGN} = CANDLESS VQA2S32903. US Ze T2302 
> 234d CASEDG HOLDERT =% CANDLESY O02Z2325003 .30997123 2,709156 


arules 包 中 的 plot () 函数 也 是 非 单 灵活 的 。 它 可 以 使 用 不 同 的 所 标 生成 的 不 同 散 点 图 ， 甚 至 可 以 对 少量 规则 进行 计数 和 分 
组 ， 并 用 气泡 来 展示 度量 : 


plot (rhs.rules, method "scatterplot") 


以 下 是 26 个 规则 的 散 扣 图， 每 一 个 点 的 颜色 都 是 编码 得 到 的 ， 代 表 着 该 规则 的 提升 度数 值 : 


26 个 规则 的 散 总 图 





lift 
002 0.025 003 0.035 0.04 0.045 | 


支持 度 


Set .SeedQ (1) 

high_1l1ift <- Subset (rules,1ift >= 1) 

plot (high_1ift, method = "grouped",control=1list (col=grey.colors (10), 
gp_labels=gpar (col="'black', cex=1))) 


{whole milk, +5 items}- 256 rules 


LHS 


2 351 个 规则 的 分 组 矩阵 


{yogurt +6 items}- 240 rules 


C0000OO0000000@ {four +5 items}- 176 rules 
C00000000000000068@ {curd, +5 items}- 80 rules 
C00000000000000868@ {citrus fruit +6 items}- 144 rules 
C00oCoooooooooooe® (yogurt, +6 items}- 144 rules 
C0000000000000000@ {curd, +7 items}- 112 rules 
COO000000000000000@ {citrus fruit +6 items}- 64 rules 
CO000000000000000® {citrus fruit +19 items}- 79 rules 
O000000000000000@ {chocolate, +4 items}- 48 rules 
CO00O0000000000000@ {citrus fruit +7 items}- 112 rules 
O00090000000000000@ {curd, +7 items}- 112 rules 
CO0000000000000000@ {citrus fruit +6 items}- 144 rules 
C0000000000000000@ {citrus fruit +7 items}- 48 rules 
COO00O0000000000000@ {citrus fruit +6 items}- 144 rules 
C0090000000000000@ {yogur, +5 items}. 80 rules 
C0000000000000000@ {citrus fruit +7 items}- 48 rules 
COCs (four +5 items}.- 80 rules 
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7.16.8 ”生成 大 量规 则 


如 果 你 想 生 成 尽 可 能 多 的 规则 ， 请 将 支持 度 和 置信 


many_rules <- apriori (trans4, parameter = list (minlen = 1, support = 0.01, 
confidence = 0.01)) > Aprioril 

> 

> Parameter specification: 

> confidence minval smax arem aval originalSupport support minlen maxlen 

> 0.01 0.1 1 none FALSE TRUE 0.01 1 10 

> target ext 

> rules FALSE 

> 

> Loorithmle control: 

> filter tree heap memopt load sort verbose 

> 0.1 TRUE TRUE FALSE TRUE 2 TRUE 

> 

> Absolute minimum support count: 136 

> 

> Set item appearances ...[0 item(s)] aone [0.00s]. 

> set transactions ...[13 item(s), 13617 transaction(s)] done [0.00s]. 

> sorting and recoding items ... [13 item(s)] done [0.00s]. 

> creating transaction tree ... done [0.00s]. 

> checking subsets of size 1 2 34 5678 done [0.00s]. 

> writing ... [8898 rule(s)] done [0.00s]. 

> creating S4 object ... done [0.00s]. many_rules > set of 8898 rules 


7.16.9 





绘制 大 量规 则 


绘图 对 于 生成 大 量规 则 的 场景 特别 有 用 ， 你 需要 在 特定 的 支持 度 和 置信 度 区 间 进 行 筛选 过 滤 : 


Size: SUpport 


color li 





此 处 有 一 个 图 ， 忆 共有 三 个 指标 ， 分 别 在 x 轴 和 y 轴 显示 了 其 中 两 个 指标 ， 第 三 个 指标 (lift、support 或 confidence) 由 阴 
影 程度 显示 : 
sel <- plot (many_rules, measure = cl("support", "confidence"), shading = 


| 
interactive = FALSE) 


按照 下 图 所 述 ， 是 一 个 高 提升 度 (>8) 、 高 置信 和 度 (>0.6) 的 规则 组 ， 但 该 组 规则 的 支持 度 较 低 : 


8 898 个 规则 的 散 点 图 
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7.17 方法 2: 创建 一 份 物理 交易 文件 


现在 你 已 经 知道 如 何 使 用 coerce to dataframe (强制 转换 数据 帧 ) 的 万 法 运行 关联 规则 ， 下 面 我 们 将 举例 说 明 write to 
file ( 写 文 件 ) 的 万 法 : 


: 在 wtite to file 方 法 中 ， 每 一 个 项 目 被 写作 一 个 单独 的 行 以 便 带 有 身份 键 值 ， 在 我 们 的 示例 中 这 个 身份 键 值 是 InvoiceId。 
wtite to file 方 法 的 优点 是 ， 非 常 大 的 数据 文件 可 以 分 开 各 自 增长 ， 如 果 需 要 的 话 也 可 以 再 合并 到 一 起 。 
你 可 以 使 用 fle.show 函 示 文 件 的 内 容 ， 文 件 的 内 容 将 输入 到 关联 规则 算法 中 : 


setwd("C:/PracticalPredictiveAnalytics/Data") 

load ("OnlineRetail.full.Rda") 

OnlineRetail <- OnlineRetail[i1:100,1] 

nrow (OnlineRetail) 

> [1] 268034 

head (OnlineRetail) 

> InvoiceNo StockCode Description Ouantity 
> 三 6365 11053 METAL LANTERN 6 
> 为 S20.309 21730 GLASS STAR FROSTED T-LIGHT HOLDER 6 
-Ee 536365 22152 SET 7 BABUSHKA NESTING BOXES 2 

4 536365 84029E WOOLLY HOTTIE HEART. 6 

1 -30305 84406B CREAM CUPID HEARTS COAT HANGER 8 

8 536366 22632 HAND WARMER POLKA DOT 6 

InvolceDate UnitPrice CustomerID Country itemcount 

12/1/2010 8:26 3.39 17850 United Kingdom 7 

12/1/2010 8:26 4.25 17850 United Kingdom 

12/1/2010 8:26 7.65 17850 United Kingdom 

12/1/2010 8:26 3.39 17850 United Kingdom 

12/1/2010 8:26 2.75 17850 United Kingdom 

127172010 B8328 1.85 171850 United Kingqdom 

Desc2 lastword firstword 

D MetalLantern LANTERN METAL 

6 GlassStarFrostedT-lightHolder HOLDER GLASS 

2 Set/BabushkaNestingBoxes BOXES SET 

4 

1 


OP OO 
Oo Oo Oo Co Oo 
DD CD ~] 心 


局 一 一 | 一 ] 一 ] 


WoollyHottieHeart. HEART. WOOLLY 

CreamCupidHeartsCoatHanger HANGER CREAM 

> 8 HandWarmerPolkaDot DOT HAND # concatenate the Invoijce Number to 七 he 
Description separated by a delimiter 

data2 <- paste (OnlineRetail$InvoiceNo, OnlineRetails$sDesc2, sep = "!") 


V V V V V VV VV VV V V Vv VV 


# eliminate duplicates 
data2 <- unique (data2) 


# 
write(data2, file = "demo_single") 
file.show('demo_single') #not run 


7.17.1 再 次 读 取 交易 文件 


使 用 read.transaction 文 件 ， 将 分 割 的 文件 读 取 回 内 存 ， 格 式 化 为 一 个 交易 文件 。 这 和 我 们 之 前 将 数据 帧 强制 转换 为 交易 文 
件 的 结果 一 样 。 


区 别 是 ， 通 过 选项 format='single' 指 定 ， 交 易 数据 被 格式 化 为 每 行 一 个 交易 。 我 们 还 通过 cols 选 项 指定 了 何 处 是 
Transaction1lD 以 及 何 处 是 项 目 描 述 。 它 可 能 有 多 个 描述 符 和 交易 ID， 并 通过 cols 选 项 来 措 定 它们 。 关 键 字 sep 指 定 了 分 隅 符 ， 
本 例 中 是 ! 字符 。 还 有 一 个 删除 重复 交易 的 选项 ， 该 选项 是 一 个 逻辑 值 ， 决 定 你 是 否 要 删除 重复 的 交易 。 


返回 的 对 象 trans 是 一 个 itemMatrix。 你 可 以 输入 trans 查 看 其 维度 ， 或 者 也 运行 dim (trans) 查看 。 这 样 你 可 以 知道 


itemMatrix 以 多 少 条 交易 为 基础 。 


如 前 所 述 ， 使 用 inspect () 遂 数 查看 trans 对 象 中 的 条 目 : 


library (arules ) 
library (arulesViz) 
setwd("C:/Users/randy/Desktop/ch6") 


file.show('demo_single') 

trans <- read.transactions ("demo_single", format = "single", sep = "!", 
cols = cl(1, 

2), rm.duplicates = FALSE, gquote = "") 

trans > transactions in sparse format with 

> 19403 transactions (rows) and 

> 3462 items (columns) dim(trans) > [1] 19403 3462 inspect (trans[1:5]) > 
1tems transactionID 

> 1 {CreamCupidHeartsCoatHanger, 

> GlassStarFrostedT-lightHolder, 


MetalLantern, 
Set /BabushkaNestingBoxes, 
WoollyHottieHeart.} 536365 


2 {HandWarmerPolkaDot} 536366 

3 {FeltcraftPrincessCharlotteDoll, 
KnittedMugCosy, 

LoveBuildingBlockWord, 

Poppy'sPlayhouseKitchen} 536367 

4 {CoatRackParisFashion} 536368 

5 {CircusParadeLunchBox, 

LunchBoxILoveLondon, 

MiniJigsawSpaceboy, 

PandaAndBunniesStickerSheet, 

Postage, 

RoundSnackBoxesSetOf4Woodland, 

SpaceboyLunchBox, 

ToadstoolLedNightLight} 536370 dim(trans) > [1] 19403 3462 
i# look up any item in labels to see if it is there. 


V V V V VV V VV VV V V V VvV VV VV 


看 一 看 经 常 购买 的 商品 项 目 。 使 用 itemFrequencePlot () 消 数 查看 购买 最 多 的 商品 项 目的 简单 柱状 图 : 


itemFregquencyPlot (trans, topN = 10, cex.names = 1) 


下 表 显 示 了 购买 最 多 的 商品 项 目 中 两 个 和 心 型 有 关 的 商品 : 
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消 数 itemLabels () 罗列 了 所 有 项 目 集中 的 标签 。 由 于 排名 靠 前 的 项 目 有 一 个 不 常见 的 缩写 (T-light) ， 你 可 以 查看 是 否 
其 他 项 目 也 有 这 个 字段 。 使 用 函数 grep () 可 以 做 到 这 一 上 后。 


result <- grep("T-light", itemLabels (trans), value = TRUE) 
str(result) 

> chr [1:96] "6ChocolateLoveHeartT-lights" ... head (result) 

> [1] "6ChocolateLoveHeartT-lights" "AgedGlassSilverT-lightHolder" 
> [3] "AntiqueSilverT-lightGlass" "AssortedColourT-lightHolder" 

> [5] "BeadedChandelierT-lightHolder" "BonneJamJarT-lightHolder" 


然后 再 次 应 用 规则 引擎 ， 使 用 小 一 些 的 support 和 confidence 等 级 来 生成 很 多 规则 : 


rules1 <- apriori(trans, parameter = list (minlen = 1, support = 0.001, 


confidence = 0.001)) 

> Apriori 

>» 

> Parameter specification: 

> confidence minval smax arem aval originalSupport support minlen maxlen 
> 0.001 0.1 1 none FALSE TRUE 0.001 1 10 

> target ext 

> rules FALSE 

> 

> Algorithmic control: 

> filter tree heap memopt load sort verbose 

> 0.1 TRUE TRUE FALSE TRUE 2 TRUE 

” 

> Absolute minimum support count: 19 

> 

> set item appearances ...[0 item(s)] done [0.00s]. 

> set transactions ...[3462 item(s), 19403 transaction(s)|] done [0.03s]. 
> sorting and recoding items ... [2209 item(s)] done [0.01s]. 

> creating transaction tree ... done [0.01s]. 

> checking subsets of size 1 2 3 4 done [0.20s]. 

> writing ... [63121 rule(s)] done [0.02s]. 

> creating S4 object ... done [0.02s]. rules1 > set of 63121 rules 


通过 这 三 种 度量 (support、confidence) 和 lift 对 规则 进行 排序 ， 了 解 哪些 规则 更 有 价值 。 根 据 support、confidence 和 和 
lift 排 序 来 查看 每 一 个 分 类 中 的 最 高 分 值 : 


tmp <- as.data.frame (inspect (tail (sort (rules1l, by = "1ift")))) > lhs rhs 


> 


V V V V V V V V Vv V VV 


AS 


38860 {AssortedColourBirdOrnament} => {StorageBagSuki} 


38861 {StorageBagSuki} => {AssortedColourBirdOornament} 
38893 {BagRetrospot} => {AssortedColourBirdOrnament} 
38892 {AssortedColourBirdOrnament} => {BagRetrospot} 
11539 {AlarmClockBakelike} => {RexCasht+carryShopper} 
11538 {RexCash+carryShopper} => {AlarmClockBakelike} 
support confidence 1ift 

38860 UaQV0IDNI0T68 DOO021T124796 UVB976097 

3006l 局 UDC 

08093 UL68 D0312Z2044. 有 22 号 33 

38892 QQ00LI 00F68 V0.04495913 QQ.8252999 

4539 QQ UUL0SZ230T QU016216022 QW 7183636 

11538 0.001082307 0.04794521 0.7183636 tmp <- 
.data.frame (inspect (head(sort (rules1, by = "support")))) > lhs rhs 


support confidence 1l11ift 


> 


V V V VV 


AS 


2207 {} => {HangingHeartT-lightHolder} 0.07256610 0.07256610 1 

2208 {} => {HeartOfWicker} 0.07004072 0.07004072 1 

2209 {} => {AlarmClockBakelike} 0.06674226 0.06674226 1 

2205 {} => {BagRetrospot} 0.05447611 0.05447611 1 

2201 {} => {RegencyCakesd3Tier} 0.05251765 0.05251765 1 

2190 1{} => {PartyBunting} 0.04184920 0.04184920 1 tmp <-— 
.data.frame (inspect (head(sort (rulesi1, by = "confidence")))) > lhs rhs 


support confidence 11ift 


> 
> 
> 
14 


1 {PolkadotCup, 

RetrospotCharlotteBag, 

SpotCeramicDrawerKnob} => {AlarmClockBakelike} 0.001082307 1.0000000 
9030 


> 2 {AlarmClockBakelike, 
> Charliet+lolaHotWaterBottle, 


> ChristmasGinghamTree} => {BabushkaNotebook} 0.001185384 0.9200000 
48.24530 

> 3 {ChristmasHangingStarWithBell, 

> RegencyTeacupAndSaucer} => {AlarmClockBakelike} 0.001133845 0.9166667 
13.73443 

> 4 {PolkadotBowl, 

> RetrospotCharlotteBag, 

> SpotCeramicDrawerKnob} => {AlarmClockBakelike} 0.001133845 0.9166667 
13.73443 

> 5 {AlarmClockBakelikeChocolate, 

> PolkadotCup} => {AlarmClockBakelike} 0.001030768 0.9090909 13.62092 
> 6 {BabushkaNotebook, 

> Charlie+lolaHotWaterBottle, 

> HeartMeasuringSpoons} => {AlarmClockBakelike} 0.001339999 0.8965517 
13.43304 


你 也 可 以 强制 将 规则 转换 为 数据 帧 ， 再 使 用 kable () 函数 输出 前 10 行 或 者 你 选择 的 一 个 子 集 : 


rules1 <- sort (ules1L1，by = "confijdence") 
rulesl.df <—- as(rules1l, "data.frame") 

cat ("using kable to print rules") 

> using kable to print rules library (knitr) 


kable (rulesi.df[1:10,],digits=6,col.names=c ("Rules","Supp", "Conf", "Lift"),a 
Tion=et 1 "Iv wv] "1")) 


| : 

|{tPolkadotCcup ,RetrospotCchar 1otteBag ,SpotCeramicDrawerKknob}+ => {AlarmC lockBakelike} 
|{tAlarmclock6akelike,char1lie+lolaHotwaterBottle,CchristmasGinghamTree} => {BabushkaNotebook} 
|{christmasHangingstarwithBe11,RegencyTeacupAndSaucer} => {AlarmClockBakelike} 
|{tPolkadotBow1 ,RetrospotCchar lotteBag,SpotCeramicDrawerKnob} => {AlarmClockBakelike} 


|{AlarmClockBakelikeChocolate,PolkadotCup} => {AlarmClockBakelike} 
|{BabushkaNotebook,charlie+lolaHotwaterBottle,HeartMeasuringSpoons} => {AlarmC lockBakelike} 
|{BabushkaNotebook,cCcharlie+lolaHotwaterBottle,ChristmasGinghamTree} => {AlarmClockBakelike} 
|{AlarmClockBakelike,BabushkaNotebook,CchristmasGinghamTree} => {Charlie+lolaHotwaterBottle} 
|{AlarmClockBakelikeCchocolate,DinerwallClock} => {AlarmClockBakelike} 
|{AlarmClockBakelikeCchocolate,Boxof24Cocktailparasols} => {AlarmClockBakelike} 





7.17.2 ”绘制 规则 


默认 的 规则 图 提供 了 一 份 所 有 规则 的 散 点 图 ，x 轴 显示 支持 度 ，y 轴 显示 置信 和 度 。 我 们 可 以 从 密度 看 出 ， 置 信和 度 呈 现 从 高 到 低 
的 变化 ， 大 多 数 密度 在 0.5 级 左右 。 支 持 度 偏 低 ， 最 高 的 支持 度 水 平 在 0.07 左 右 : 


plot (rulesl) 


7.17.3 ”创建 规则 的 子 集 


和 之 前 所 做 的 一 样 ， 我 们 可 以 通过 解析 等 式 的 左边 或 右边 来 坦 看 某 些 子 集 。 


例如 ， 我 们 可 能 有 兴趣 查看 一 下 ， 什 么 商品 项 目 可 能 导致 购买 巧克力 : 


` 使 用 %pin% 操 作 符 (局 部 匹配 ) ， 得 到 规则 和 集 的 子 集 ， 查 看 所 有 那些 等 式 左 边 出 现 了 巧克力 的 交易 : 


63 121 个 规则 的 散 点 图 


12>0 


100 





0 0.01 0.02 0.03 0.04 0.03 0.06 0.07 Lift 
文 持 度 


purchased.this < "Chocolate" 


lhs.rules <- subset (rules1, subset = rhs %plins 
purchased.this) 


` 输出 lhs.rules 显 示 有 487 条 交易 满足 条 件 ， 即 巧克力 出 现在 等 式 左边 : 
print (lhs.rules) > set of 487 rules 


` 根据 提升 度 对 这 些 交易 进行 排序 ， 用 前 15 条 交易 生成 一 个 图 形 : 


hs rules = SOTECLhNS。 rules;: Dy = TLIfE™) 


inspect (head(sort (lhs.rules, by = "1ift"))) > lhs rhs support confidence 
i th 

> 1 {CakeTowelSpots} => {CakeTowelChocolateSpots} 0.001185384 0.2911392 
SG0026 

~ 2 BLOGULLSDOWLLLONE., 

> DollyMixDesignBowl} => {ChocolatesBowl} 0.001030768 0.4444444 68.98844 
> 3 {BakingMouldHeartChocolate} => {BakingMouldHeartMilkChocolate} 
0.001030768 0.2941176 57.64409 

> 4 {BakingMouldHeartMilkChocolate} => {BakingMouldHeartChocolate} 
0.001030768 0.2020202 57.64409 

”5 IBLISCULIESBOwLLLGht} 三 > ChoeolatesBowl} OQ.00LIDO ro0 0.3580957 5.0781] 
> 6 {MarshmallowsBowl} => {ChocolatesBowl} 0.002422306 0.2397959 37.22208 


“ 方向 图 便于 说 明 ， 将 商品 项 目 数量 缩小 到 一 定数 目 时 ， 哪 些 购物 行为 会 影响 其 他 购物 行为 : 


plot (lhs.rules[1:15], method = "graph", control = list (type = 
"jtems", cex = 0.5)) 


" 从 下 面 的 图 可 以 看 到 ，DollyMixDesigpnBowl 和 MarshmallowsBowl 都 显示 出 更 大 、 顾 色 更 深 的 气泡 ， 说 明 对 于 购买 巧克力 ， 
它们 在 support、confidence、lift 三 个 维度 上 都 具有 更 好 的 预测 效果 : 


15 个 规则 的 图 





. 最 后 ， 如 果 你 希望 保存 工作 区 ， 可 以 使 用 save.image 命 令 : 


save.image (file = "ch6 part 2.Rdata") 





7.18 ”转换 为 一 个 文献 术语 相关 和 滤 阵 


一 旦 得 到 语料库 ， 就 可 以 把 该 语料库 转换 为 一 个 文献 术语 相关 和 矩阵 (document term matrix，DTM) 。 建 YDTM 时 , 一 
定 要 注意 限制 数据 量 以 及 处 理 的 结果 术语 。 如 果 没 有 正确 地 参数 化 ， 就 可 能 需要 很 长 的 运行 时 间 。 人 参数 化 是 通过 选项 完成 的 。 我 
们 会 去 掉 停 用 词 、 标 点 符号 和 数字 。 此 外 ， 我 们 只 考虑 最 小 字 长 为 4 的 术语 : 


library (tm ) 

dtm <—- DocumentTermMatrix(corp, control = list (removePunctuation = TRUE, 
wordLengths = c(4, 

999), stopwords = TRUE, removeNumbers = TRUE, stemming = FALSE, bounds = 
1 LODal SS Ci(D, 

TTI 


我 们 可 以 利用 inspect () 函数 开始 到 看 效 据 : 


该 函数 和 arules 包 中 的 inspect () 六 数 不 同 ， 如 果 你 加 载 了 arule 包 ， 要 在 inspect 前 加 上 前 缀 ， 即 tm: : inspect: 


inspect (atm[1:10，1:10]) > <<DocumentTermMatrix (documents: 10, terms: 
10)>> 

> Non-/sparse entries: 0/100 

Sparsity : 100% 

Maximal term length: 8 

Weighting : term frequency (tf) 


Terms 
Docs abstract acapulco account acrylic address adult advent afghan aged 
0 0 0 0 


OO 
OO 


co ~ OU ND 
CY MD CF: RY CY CY 
(DY DD ED ER © 
OO OO 
ODD /CE 
© 0 CY DY OY 二) 
O OO OO OO OODOD 
CD) CD C3 CY DY OY Ca 
C3 CY DAY OY OO 
HD OO TD DY DY CD 


9 
10 .00000000000 0 
Terms 


V V V V V V V V V V V V V V VvV VV 


Does anNnow 
0 


V V V V V VV V Vv Vv VV 
(OO OOON 术 OD 心 
CG Mo a EE EY C3 


OO 
OO 


创建 DTM 之 后 ， 我 们 可 以 查看 执行 print (dtm) 命令 生成 的 元 数据 。 从 第 一 行 中 可 以 获得 文档 和 数据 的 个 数 : 


print (dtm) > <<DocumentTermMatrix (documents: 268034, terms: 1675)>> 
> Non-/sparse entries: 826898/448130052 
> Sparsity : 100% 
> Maximal term length: 20 
> Weighting : term frequency (tf) 


7.18.1” 移 除 稀 咏 木 语 
大 多 数 的 DTM 最 初 都 充斥 着 大 量 的 空 日 。 这 是 因为 语料库 中 每 一 个 词 都 加 上 了 索引 ， 并 且 很 多 词 很 少 出 现 ， 这 些 词 也 不 需 
要 解析 。 移 除 稀 芷 的 术语 是 一 种 可 以 减少 术语 数 量 的 方法 ， 这 样 语料库 融 能 处 于 一 个 可 管理 的 规模 ， 同 时 也 节省 了 空间 。 
removeSparseTerms () 函数 将 摘 述 中 的 术语 个 数 从 268 034 减 少 到 了 62: 


dtms <- removeSparseTerms (dtm, 0.99) 
dim(dtms) > [1] 268034 62 


还 有 另 一 种 检验 的 方法 ， 我 们 也 可 以 在 中 阵 形式 中 对 它 执 行 View () 消 数 : 


View(as.matrix (dtms)) 


以 下 是 执行 View 命 令 的 输出 结果 。1 代 表 该 术语 出 现 ，0 代 表 该 术语 未 出 现 : 


S| 和 A| 了 Fiter 





Showing 1 to 13 of 268,034 entries 


7.18.2 ” 找 出 频繁 木 语 


tm 包 有 一 个 实用 的 函数 findFreqTerms， 用 于 找 出 弟 用 的 术语 的 频率 。 函 数 的 第 二 个 参数 限制 结果 中 所 有 术语 的 最 小 出 现 
频率 。 我 们 也 可 以 通过 统计 DTM 中 每 一 个 术语 的 1 和 0 的 数量 来 计算 事件 上 友 生 的 次 数 。 然 后 按照 术语 的 出 现 频 率 ， 从 高 到 低 对 该 
列表 进行 排序 : 


data.frame (findFreqTerms (dtms, 10000, Inf)) > 
findFreqITerms.dtms..10000..Inf. 

> 1 cake 

christmas 

design 

heart 
metal 

TECETOSDOE 

vintage freq <- colSums (as.matrix (dtms)) 
there are xx terms 

length(fregq) > [1] 62 ord <- order (freqg) 

# look at the top and bottom number of terms 

fregq[lhead(ord, 12)] > union skull zinc bird wood wall birthday 
> 2752 2770 2837 2974 2993 3042 3069 

> colour charlotte star antique silver 

> 3089 3114 3121 3155 31715 fregqltail (ord; 10)] > hanging sign lunch metal 
cake christmas design 

> 8437 8580 9107 10478 10623 12534 14884 
> vintage retrospot heart 
> 16755 17445 19520 


大 V VV V V VV 
~ OO 心 WO 改 


为 了 更 好 地 演示 ， 柱 状 图 也 很 适用 于 显示 相对 频率 ，: 


barplot (fregl[ltail (ord, 10)], cex.names = 0.75, col = c("blue")) 


最 常见 的 术语 是 heart: 


15000 





100D00 


S000 





[0 





lunch metal cake design retrospot 


我 们 可 以 用 代码 做 一 点 小 小 的 控制 ， 只 显示 topN (前 N 个 ) 最 高 频 的 术语 : 


dtmx <—- dtms[, names (tail(sort (colSums (as .matrIx(aQatms)))，12))] 
lnspect (dtmx[1:10, ]) > <<DocumentTermMatrix (documents: 10, terms: 12)>> 


> Non-/sparse entries: 3/117 
> Sparsity : 98% 

> Maximal term length: 9 

> Weighting : term frequency (tf) 
” 

> Terms 

> Docs pack holder hanging sign lunch metal cake christmas design vintage 
>10000010000 

> 
产生 
>40000000000 

> 50000000000 
> 

> 
> 
>9000000000 0 
有 

> lerms 

> Docs retrospot heart 

> 1 0 0 

- 

> 3 蛋 必 

>40 1 

> 

-6 刁 必 

> 

> 8 0 0 

人 

> 10 0 0 


7.19 ”术语 的 k 均 值 聚 类 


现在 可 以 对 文献 术语 矩阵 进行 k 均 值 (k-means) 聚 类 分 析 。 为 了 便于 说 明 ， 我 们 指定 生成 的 聚 类 数量 为 5 个 : 
KmeansD <— kmeans (dtms, 5) 


执行 完 k 均 值 之 后 ， 将 聚 类 号 加 入 原始 数据 ， 然 后 基于 聚 类 创建 5 个 子 集 。 


kw_with cluster <- as.data.frame (cbind (OnlineRetail, Cluster = 
kmeans5$cluster)) 


+# SDBDeet the five CLsters 


cluster1 <—- subset (kw_with cluster, subset = Cluster == 1) 
Cluster2 <- subset (kw_with cluster, subset = Cluster == 2) 
cluster3 <— subset (kw_with cluster, subset = Cluster == 3) 
cluster4 <- subset (kw_with cluster, subset = Cluster == 4) 
cluster5S <- subset (kw_with cluster, subset = Cluster == 5) 


7.19.1 ”研究 聚 类 1 


输出 数据 样本 : 


> head (clusteri{[10:13]) 

Desc2 lastword firstword Cluster 

50 VintageBillboardLove/hateMug MUG VINTAGE 1 

86 BagVintagePalsley PAISLEY BAG 1 

113 ShopperVintagePaisley PAISLEY SHOPPER 1 

145 ShopperVintagePaisley PAISLEY SHOPPER 1 
200 VintageHeadsAndTailsCardGame GAME VINTAGE 1 
210 PaperChainKitVintageChristmas CHRISTMAS PAPER 1 


列 出 频率 并 输出 聚 类 中 最 常见 的 术语 。 你 会 观察 到 ， 许 多 项 目 和 christmas 以 及 paisley 项 目 有 关 ， 而 且 它 们 两 个 似乎 总 一 起 
出 现 : 
tail (sort (table(clusterlilslastword)), 10) MUG GAME BUNTING CARDS DESIGN LEAF 
427 431 456 dB2 535 T17 311 


DOILY PAISLEY CHRISTMAS 
1073 1699 1844 


7.19.2 ”人 研究 聚 类 2 


对 聚 类 2 生成 表格 后 ， 查 看 该 文件 的 其 中 一 部 分 。 当 综合 考虑 第 一 个 词 和 最 后 一 个 词 时 ， 看 起 来 该 聚 类 和 悬挂 染 有 天 : 


> head (cluster2[10:13]) Desc2 lastword firstword Cluster 6 
GlassStarFrostedT-lightHolder HOLDER GLASS 2 57 HangingHeartT-lightHolder 
HOLDER HANGING 2 62 GlassStarFrostedT-lightHolder HOLDER GLASS 2 70 
HangingHeartT-lightHolder HOLDER HANGING 2 81 HangingHeartT-lightHolder 
HOLDER HANGING 2 156 ColourGlassT-lightHolderHanging HANGING COLOUR 2 


不 要 只 看 记录 ， 要 看 最 单 出 现 的 单词 的 频率 。heart ( 心 形 ) 、hanging (悬挂 ) 以 及 folder ( 折 芭 ) 是 在 聚 类 2 中 3 个 出 现 
频率 最 高 的 单词 : 


tail (sort (table (cluster2$lastword)), 10) 


TE 





7.19.3 ”研究 聚 类 3 


聚 类 3 可 能 和 客户 购买 的 不 同 的 signs (标签 ) 集合 有 关 。set (组 合 ) 、signs (标签 ) 、boxes ( 盒 ) 、design (设计 ) 是 


head (cluster3[10:13]) Desc2 lastword firstword Cluster 5 MetalLantern 
LANTERN METAL 3 2 Set7BabushkaNestingBoxes BOXES SET 3 4 WoollyHottieHeart. 
HEART. WOOLLY 3 1 CreamCupidHeartsCoatHanger HANGER CREAM 3 8 
HandWarmerPolkaDot DOT HAND 3 10 FeltcraftPrincessCharlotteDoll DOLL 
FELTCRAFT 3 

> tail(sort (table(cluster3$lastword)),10) 

CANDLES POLKADOT BUNTING BAG DECORATION SET SIGN BOX DESIGN 

2307 2539 2610 3084 3156 3844 6184 6277 10975 16627 


7.19.4 研究 聚 类 4 


聚 类 4 可 以 看 作 那 些 购 买 retrospot 产 品 的 顾客 : 


> headq(clLluster4[10:13]) Desc2 lastword firstword Cluster 100 
LunchBoxWithCutleryRetrospot RETROSPOT LUNCH 4 102 
PackOf 2RetrospotCakeCases CASES PACK 4 84 60TeatimeFairyCakeCases CASES 60 
4 94 3PieceRetrospotCutlerySet SET 3 4 91 LunchBagRetrospot RETROSPOT LUNCH 
4 127 RetrospotMilkJug JUG RETROSPOT 4 
tail(sort (table(cluster4$lastword)), 10) APRON NAPKINS BANK PC TINS DESIGN 
486 511 512 514 531 664 1203 
BAG CASES RETROSPOT 
1395 4318 6485 


最 后 ， 聚 类 5 似乎 比较 关心 购买 Bottles ( 瓶 ) ， 可 能 是 一 些 perfumes (香水 ) 、elixirs (药水 ) 或 者 tonics (补品 ) : 


head (clusterD) 


> head (cluster5[10:13]) 
Desc2 lastword firstword Cluster 


59 KnittedUnionFlagHotWaterBottle BOTTLE KNITTED 3 
68 KnittedUnionFlagHotWaterBottle BOTTLE KNITTED - 
19d AssortedBottleTopMagnets MAGNETS ASSORTED 2 
206 EnglishRoseHotWaterBottle BOTTLE ENGLISH 5 
pa RetrospotHeartHotWaterBottle BOTTLE RETROSPOT 风 
可 HotWaterBottleTeaAndSympathy SYMPATHY HOT 5 
tail(sort (table(clusterSs$lastword)), 10) 
BABUSHKA MAGNETS TONIC ELIXIR PERFUME OPENER SYMPATHY POIRLDY 
CALM BOTTLE 
87 > 5 108 112 ep 149 318 345 
418 S99 


7.20 ”预测 聚 类 分 配 


本 练习 的 目的 是 给 测试 数据 集 评分 ， 基 于 训练 数据 集 的 预测 方法 来 分 配 聚 类 。 


7.20.1 使 用 flexclust 预 测 娶 类 分 本 


标准 的 k 均 值 函 数 没有 提供 预测 方法 。 然 而 ，flexclust 包 提供 了 预测 方法 ， 我 们 可 以 使 用 它 来 处 理 。 因 为 训练 预测 方法 需要 
的 运行 时 间 很 长 ， 所 以 我 们 只 抽样 若干 行 和 列 的 数据 ， 用 它 来 说 明 该 方法 。 为 了 比较 测试 和 训练 的 结果 ， 结 果 也 需要 相同 数量 的 
行 和 列 。 为 了 便于 说 明 ， 我 们 将 行 和 列 的 数目 设置 为 10。 

首先 从 OnlineRetail 训 练 数据 中 取出 一 个 样本 : 


set.seed(1) 
sample.size <- 10000 
max.cols <—- 10 


library ("flexclust") OnlineRetail <- OnlineRetaill[i:sample.size, | 


接 下 来 ， 在 抽样 数据 集中 ， 从 description 列 创建 文献 术语 矩阵 。 我 们 要 使 用 RText-Tools 包 的 create_matrix 函 数 ， 它 可 以 
创建 一 个 DTM 而 不 需要 单独 创建 一 个 语料库 


requilire (tm) 
library (RTextTools) #Create the DIM for the training data 


dtMatrix <- create _ matrix (OnlineRetail$sDescription, minDocFreq = 1, 
removeNumbers = TRUE, 
minWordLength = 4, removeStopwords = TRUE, removePunctuation = TRUE, 


stemWords = FALSE, 
welghting = welightTf) 


接 下 来 ， 检 查 数据 的 维度 。 我 们 友 现 其 中 有 1300 个 术语 。 实 际 上 它们 都 是 稀 玖 术语 ， 因 此 我 们 把 这 些 术 语 从 算 阵 中 移 除 : 


dim(dtMatrix) 
> [1] 10000 1300 dtMatrix <- removeSparseTerms (dtMatrix, 0.99) 


移 除 稀 蚊 术语 后 ， 列 的 数量 从 1300 减 少 到 621! 
dim(dtMatrix) > [1| 10000 62 
我 们 要 让 测试 集 和 训练 集 具有 相同 数量 的 术语 (max.cols) : 
dtMatrix <— dtMatrix[, ll:max.colsl 


为 了 观察 dtMatrix 那 些 至 少 出 现 了 前 10 个 术语 中 的 2 个 的 行 ， 我 们 可 以 使 用 rowSums 消 数 ， 将 每 一 个 术语 都 标识 上 1 和 和 I0: 


tmp:. <~ TOWSUMS tas matrix(tdtMatrix}) tmp3 <~ dataftrame (tmpltmp>11) 


然后 我 们 提取 符合 > 1 这 个 条 件 的 行 的 泰 引 号 : 


selected <- as.numeric(rownames (tmp3)) headl(selected) > head(selected) [1] 
3 38 68 83 92 111 


输出 满足 该 条 件 的 前 10 个 术语 的 DTM 的 前 10 行 : 
kable (tm: :inspect (dtMatrix[selected[1:10],])) 


alarm 


0 
0 
0 
0 
0 
0 
0 
0 
0 
0 





7.20.2 运行 k 均 值 生 成 聚 类 
使 用 kcca 包 来 运行 k 均 值 函 数 ， 生 成 5 个 聚 类 分 配 : 
# repeat kmeans using the kcca function. Clusters=5 


clust1 = kcca(dtMatrix, k = 5, kccaFamilly ("kmeans")) 
ClLust1L > kcca object of family "kmeans'， 

call: 

kcca(x = dtMatrix, k = 5, family = kccaFamlly ("kmeans")) 


cluster sizes: 


> 总 省 
So L220 0 


V V V V Vv Vv VV 


输出 分 配 到 每 个 聚 类 的 元 素数 目 : 


table{clustiQ@cluster) > 
> 
> 360 120 152 387 8981 


将 具有 训练 数据 的 聚 类 合并 ， 输 出 一 些 样本 记录 ， 展 示 每 个 训练 数据 分 配 到 哪个 聚 类 : 


kw with cluster2 <- as.data.frame (cbind (OnlineRetail, Cluster = 
clustiQ@cluster)) 


head (kw_with_ cluster2) > InvoiceNo StockCode Description Quantity 
D 536365 /1053 METAL LANTERN 6 

6 536365 21730 GLASS STAR FROSTED T-LIGHT HOLDER 6 

2 536365 22152 SET 7 BABUSHKA NESTING BOXES 2 

4 536365 84029E WOOLLY HOTTIE HEART. 6 

1 536365 84406B CREAM CUPID HEARTS COAT HANGER 8 

8 536366 22632 HAND WARMER POLKA DOT 6 

InvoiceDate UnitPrice CustomerID Country itemcount 


12/1/2010 8:26 3.39 17850 United Kingdom 7 
12/1/2010 8:26 4.25 17850 United Kingdom 7 
12/1/2010 8:26 7.65 17850 United Kingdom 7 
12/1/2010 8:26 3.39 17850 United Kingdom 7 
12/1/2010 8:26 2.75 17850 United Kingdom 7 
12/1/2010 8:28 1.85 17850 United Kingdom 2 


Desc2 lastword firstword Cluster 

MetalLantern LANTERN METAL > 
GlassStarFrostedT-lightHolder HOLDER GLASS 5 
Set /BabushkaNestingBoxes BOXES SET 5 
WoollyHottieHeart. HEART. WOOLLY 5 


CreamCupidHeartsCoatHanger HANGER CREAM 5 
HandWarmerPolkaDot DOT HAND 5 


V V VV VV VV VV VV VV VV VYVYVyV 
co 己 心 IO 0 


OP 人 太 NDOV 


在 训练 集中 运行 预测 方法 。 最 终 ， 我 们 要 将 预测 方法 应 用 到 测试 数据 上 : 


pred train <—- predict (clust1) 


7.20.3 ”创建 测试 DTM 
现在 我 们 转向 测试 数据 集 。 首 先 ， 提 取出 和 训练 数据 同样 大 小 的 样本 量 ， 然 后 重复 刚才 的 过 程 ， 从 为 样本 创建 文献 术语 矩阵 
开始 : 


OnlineRetail.test <- OnlineRetail.test[1:sample.size, | 
dtMatrix.test <- create matrix(OnlineRetail.tests$Description, minDocFreq = 


1, 
removeNumbers = TRUE, minWordLength = 4, removeStopwords = TRUE, 
removePunctuation = TRUE, 


stemWords = FALSE, weighting = weightTf) 


和 我 们 之 前 所 做 的 一 样 ， 移 除 矩 阵 中 的 入 下 术 语 。 然 后 使 用 dim () 浮 数 查看 还 存在 多 少 非 稀 玖 术语 : 


dtMatrix.test <- removeSparseTerms (dtMatrix.test, 0.99) 
dim(dtMatrix.test) # reduced to 61 terms 


> [1] 10000 61 


取 前 max.col (10) 个 术语 : 


dtMatrix.test <- dtMatrix.test[, i1:max.cols] 


dtMatrix.test > <<DocumentTermMatrix (documents: 10000, terms: 10)>> 
> Non-/sparse entries: 2072/97928 

> Sparsity : 98% 

> Maximal term length: 8 

> Welighting : term frequency (tf) 


输出 出 现 了 2 次 以 上 的 术语 的 文件 的 一 部 分 。 注 意 ， 昌 然 有 些 术语 在 两 者 中 都 出 现 了 ， 但 测试 集 DTM 的 前 10 个 术语 和 训练 集 
DTM 的 前 10 个 术语 不 尽 相 同 。 因 为 我 们 取 前 10 个 术语 只 是 为 了 说 明 访 技术 的 原理 ， 这 种 现象 是 正常 的 ， 也 是 预料 中 的 : 


Emp = EOWoUnms (las mtrixtadtMat rix testi) 

tmp3 <— data.frame (tmp[tmp>1]) 

selected <- as.numeric (rownames (tmp3)) 

head (selected) 

#1library (Knitr) 

kable (tm: :inspect (dtMatrix.test[selected[1:10],])) 


0 
0 
0 
0 
0 
0 
0 
0 
0 
0 





验证 测试 和 训练 数据 有 相同 的 维 数 。 这 一 点 很 重要 ， 因 为 如 果 列 的 数目 不 同 ， 预 测 方 法 会 失败 : 


dim (dtMatrix) 
> [1] 10000 10 
dim(dtMatrix.test) 
> [1] 10000 10 


在 训练 数据 上 运行 预测 函数 ， 并 将 结果 赋值 到 测试 数据 : 
pred_test <- predict (clust1, newdata = dtMatrix.test) 
首先 ， 碍 看 该 表 中 测试 数据 的 聚 类 分 配 : 


table (pred_ 七 est) 
> pred 七 est 
> 12345 
> 171 113 201 146 9369 


最 后 ， 合 并 测试 数据 的 聚 类 ， 


kw_with cluster2 _ score <- as.data.frame (cbind (OnlineRetail.test, 
Cluster=pred_test)),) 


分 配给 每 个 测试 数据 的 聚 类 类 别 。 这 个 例子 中 ， 每 个 聚 类 显示 两 笔 交 易 


head (kw _ with cluster2 score) 


Clust1.score=head (subset (kw_with cluster2 score,Cluster==1),2) 
Clust2.score=head (subset (kw_ with cluster2 score,Cluster==2),2) 
Clust3.score=head (subset (kw_with cluster2_ score,Cluster==3),2) 
Clust4.score=head (subset (kw_with cluster2_ score,Cluster==4),2) 
i 
head (clust1 .scorel, ee | 
head (clust2.scorel, “i 
head (clust3.scorel, 1) 
head (clust4.scorel, | 
head (clust5.scorel, L313) 
> head (clust1i.score[,10:13]) 
Desc2 lastword firstword Cluster 
89 PackOf60PaisleyCakeCases CASES PACK | 
96 PackOf60DinosaurCakeCases CASES PACK 1 
> head (clust2.score[,10:13]) 
Desc2 lastword firstword Cluster 
61 WoodenFrameAntique WOODEN 2 
140 AntiqueGlassDressingTablepPot POTL ANTIOUE 2 
> head (clust3.score[,10:13]) 
Desc2 lastword firstword Cluster 
148 3TijerCakeTinAndCream CREAM 3 S| 
143 3TierCakeTinAndCream CREAM 台 
> head (clust4.score[,10:13]) 
Desc2 lastword firstword Cluster 
126 ZincWillieWinkieCandleStick STIECR ZINC 4 
488 LoveBirdCandle CANDLE LOVE 4 
> head (clust5.score[,10:13]) 
Desc2 lastword firstword Cluster 
HangingHeartT-lightHolder HOLDER HANGING 号 
7 KnittedUnionFlagHotWaterBottle BOTTLE KNITITED 5 


在 聚 类 中 运行 apriori 算 法 


回 到 apriori 算 法 ， 我 们 可 以 使 用 生成 的 预测 聚 类 (而 不 是 lastword) 来 开发 某 些 规则 : 
` 使 用 强制 转换 数据 帧 的 方法 生成 交易 文件 ， 和 之 前 生成 文件 的 方法 一 样 。 
创建 fules_clust 对 象 ， 构 建 基 于 聚 类 项 目 集 {1，2，3，4，51 的 关联 规则 。 


` 检查 一 些 通过 提升 度 生 成 的 规则 : 


library (arules) 

Colnames (kw_with cljuster2 score) 

kable (head (kw_with cluster2 _ score[,c(1,13)],5)) 

Lil = 

data.frame (kw_with cluster2 scorel[,1], 

kw_with cluster2 score[,13]) 

names (tmp) [1] < "TransactionID" 

names (tmp) [2] <- "Items" 

tmp <— unique (tmp) 

tansd <— 三 三 SELECT zs 二 站 让 
<— apriori (trans4,parameter = list (minlen=2, support = 
0.02,confidence = 0.01)) summary (rules_clust) 

tmp <- as.data.frame (inspect( head(sort (rules_clust, 


rules clust 


By= "1 ys) 


> tmp <- as.data.frame (inspect( head(sort (rules_clust, 
by="11ift"),10) ) ) 


lhs rhs SUbbDoOrt confidence 11ift 
2 270 => 14F DU3U0G60093 U.S3UBB23D DWaayn9 
1 ”下 字 和 => {4} 0.03065693 0.3043478 2.978261 
2 {4} = {ZZ DDS065693 0.3000000 Zs:978261 
23 {4,5} => {2} 0.03065693 0.3000000 2.978261 
32 {1,5} => {4} 0.02773723 0.2087912 2.043171 
9 {4} => {1} 0.02773723 0.2714286 2.020963 
1 414} => {4 W073123 0.206002L 2.020963 
31 14s508 = {iF 2 .2114286 Ze.020903 
总 
11 {4} = 143} DU33010664 U328005714 189135" 
7.22 ”上 总 结 指标 


对 rules_clust 对 缚 进行 忌 结 ， 结 果 显 示 ， 平 均 支持 度 在 0.05， 平 均 置 信和 度 在 0.43。 


这 表明 ， 使 用 聚 类 是 一 种 开 友 关联 规则 的 可 行 方 法 ， 同 时 减少 了 资源 和 维度 的 数量 : 


support confidence 有 二 
Min. :0.02044 Min. i Min. :0.989 
LSE Cl YU UZO0d 1st Qu.:0.19816 Lt Os SleUUo 
Median :0.03066 Median :0.27143 Median :1.5206 
Mean :0.05040 Mean :0.43040 Mean :1 ,G08 
3rd Qu.:0.04234 3rd Ou.:0.81954 3rd DU 1 B91 
Max. :0.17080 Max. = Max. -A 
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7.24 ”本 童 小 结 


本 章 ， 我 们 学 习 了 一 种 特定 类 型 的 推荐 3 引擎， 属于 购物 篮 分 析 的 范畴 。 
我 们 看 到 购物 复 分 析 能 够 挖掘 出 大 量 包括 半 结 构 化 数据 的 交易 ， 从 而 在 每 个 购物 篮 的 商品 项 目 中 提取 出 关联 规 则 。 


在 购物 复数 据 中 使 用 一 些 其 他 的 数据 清理 技术 ， 以 便 标 准 化 和 巩固 购买 项 目的 一 些 摘 述 。 我 们 还 学 习 了 如 何 使 用 绘图 技术 ， 
通过 作用 度 、 支 持 度 以 及 可 信和 度 这 些 指标 来 分 离 出 最 有 效果 的 规则 。 


最 后 ， 我 们 展示 了 如 何 从 购物 篮 数 据 的 训练 数据 生成 聚 类 ， 以 及 基于 测试 数据 集 预 测 聚 类 分 配 。 


第 8 草 ”将 医疗 注册 数据 作为 时 间 友 让 探 索 


“我 已 经 看 到 了 未 来 ， 它 和 现在 一 样 ， 只 是 时 间 更 长 。” 





Kehlog Albran, The Profit 


8.1 ”有 时间 友人 5 收据 


时 间 序 列 数据 通常 是 以 相等 时 间 间 隔 收 集 的 一 组 有 序数 据 。 在 大 多 数 商 业 和 科学 学 科 中 都 会 用 到 时 间 序 列 数 据 ， 这 类 数据 与 
预测 概念 密切 相 天 ， 预 测 概 念 使 用 先前 测量 的 数据 点 根据 特定 的 统计 模型 预测 未 来 的 数据 点 。 


时 间 序 列 数 据 与 我 们 以 前 所 看 到 的 数据 类 型 有 所 不 同 。 因 为 它 是 一 组 有 序 的 数据 点 ， 它 可 以 包含 诸如 趋势 、 季 节 性 和 上 自 相 关 
等 组 件 ， 而 这 些 组 件 在 其 他 类 型 的 分 析 中 没有 什么 意义 。 例 如 “ 横 截 面 ” 分 析 ， 它 查看 在 一 个 静态 时 间 点 收集 的 数据 。 


通 弟 情况 下 ， 时 间 序 列 数据 以 等 间隔 的 时 | 间 间 隅 收集 ， 如 天 、 周 、 季 或 年 ， 但 情况 并 非 上 总 是 如 此 。 测 量 自 然 灾 害 等 事件 束 是 
一 个 很 好 的 例子 。 在 某 些 情况 下 ， 你 可 以 将 不 均匀 的 数据 转换 为 等 间隔 的 数据 。 在 其 他 情况 下 ， 你 可 以 使 用 专门 的 拷 术 ， 如 
Croston 的 万 法 来 预测 某 些 情 况 下 货物 和 服务 的 间 欣 或 意外 需求 等 。 


探索 时 间 序 列 数据 


许多 时 间 序 列 研究 通 过 探索 在 等 间隔 时 间 内 测量 的 一 个 数据 度量 开始 。 从 数据 科学 的 角度 来 看 ， 我 们 可 能 有 兴趣 识别 一 个 时 
间 序 列 的 很 多 片段 ， 这 些 厂 段 可 能 会 呈现 出 有 趣 的 趋势 ， 如 周期 性 或 季节 性 模式 。 所 以 ， 我们 在 开始 处 理 时 间 序 列 的 数据 时 ， 忆 
是 先 以 图 形 方式 查看 数据 ， 和 生成 尽量 度量 ,然后 骨 进 行 建 模 。 


8.2 ”健康 保险 履 震 率 数 据 集 


利 移 我 们 将 读 入 一 个 数据 集 ， 其 中 包含 几 类 一 段 时 间 内 的 医疗 注册 数据 。 这 些 数 据 来 目 表 格 HIB-2， 它 包含 了 1999~ 2012 
年 健康 保险 履 兰 状况 以 及 近年 龄 和 性 别 分 类 的 所 有 人 的 保险 类 型 ， 可 以 从 CMS3 网 


站 http://www.census.gov/data/tables/time-series/demo/health-insurance/historical-series/hib.html. 上 下 载 这 个 表格 。 
这 个 表格 显示 了 政府 和 私人 保险 覆盖 的 人 数 以 及 未 覆盖 的 人 数 。 


表格 中 包含 14 年 中 的 几 个 蔚 入 的 时 间 序 列 。14 个 数据 点 不 能 算是 一 个 非常 长 的 时 间 序 列 ; 然而 ,我 们 将 用 这 些 数 据 展示 如 
何 能 够 同时 梳理 许多 时 间 序 列 。 由 于 它 很 小 ， 因 此 很 容易 通过 目测 和 输出 数据 的 子 集 来 验证 结果 。 随 着 你 对 方法 学 越 来 越 熟悉 ， 
你 就 能 够 扩展 到 具有 更 多 数据 点 的 大 型 复杂 数据 集 ， 以 便 分 离 出 最 显著 的 趋势 。 


8.3 ”准备 工作 


正如 我 们 在 其 他 章节 所 做 的 那样 ， 首 先 清空 工作 区 ， 并 设置 工作 目录 。 显 然 ， 要 将 setwd () 函 数 的 输入 更 改 为 存储 文件 的 


-inl = J] 各 和 
setwd("C:/PracticalPredictiveAnalytics/Data") 


8.4” 读 入 数据 


接 下 来 ， 我 们 将 从 文件 中 读 取 几 行 数据 (使 用 nrow 参 数 ) ， 然 后 在 读 入 的 数据 上 运行 一 个 str () 六 数 来 查看 文件 中 包含 哪 
些 变量 。 有 天 医疗 注册 的 文件 中 有 几 个 指标 。 在 本 章 中 我 们 只 关注 注册 总 数 这 个 指标 ， 而 不 使 用 其 他 的 一 些 细 分 项 目 (如 军人 和 
私人 保险 ) : 


x <— read.csv("x <—- read.csv ("hihist2bedit .csv", nrow = 10)" 


EE 

> ‘data.frame': 10 obs. of 13 variables: 

> S$ Year : Factor w/ 10 levels 2003 "2004 (4) 2 10987 6 5 
432 1 

> $5 Year.1 Tn 2Z01l2 20L1 ZU010 2Z009 ZO008 2Z00T 20U6 2Z2005% Z0D4 ZZ003 
> 5 Total.People: num 311116 308827 306553 304280 301483 

> S$ Total : TUMmM 263165 260214 256603 255295 256702 

> 9 PEILtOLal : num 198812 1971323 196141 196245 202626 

> $5 priemp : num 170877 170102 169372 170762 177543 

> S$ pridirect : num 30622 30244 30347 29098 28513 

> S$ govtotal : num 101493 99497 95525 93245 87586 

> $5 govmedicaid : num 50903 50835 48533 47847 42831 

> S$ govmedicare : num 48884 46922 44906 43434 43031 

> S$ govmilitary : num 13702 13712 12927 12414 11562 


> S$ Not.Covered : num 47951 48613 49951 48985 44780 。 
» 9 : Factor w/ 1 level "ALL AGES": 1 1 1 111 1 1 1 1 


8.5 ”从 各 人 外 提取 子 集 


在 本 练习 中 ， 我 们 将 使 用 CSV 文 件 中 有 限 的 一 组 列 。 我 们 可 以 从 刚刚 读 入 的 dataframe 中 选择 特定 的 列 (如 果 我 们 读 取 了 整 
个 文件 ) ， 或 者 使 用 colClasses 参 数 重新 读 取 CSV 文 件 ， 只 读 取 所 需 的 列 。 通 常 ， 当 你 阅读 一 个 大 文件 的 时 候 ， 这 个 方法 是 可 取 
的 ， 我 们 会 要 求 read.csv 只 保留 前 三 列 和 最 后 两 询 ， 并 且 忽 略 govmilitary 到 priemp 之 间 的 所 有 询 。 


当 我 们 从 文件 中 重新 读 取 包含 这 些 列 的 子 集 后 ， 要 输出 几 条 文件 的 开头 和 结尾 的 记录 。 我 们 可 以 组 合 使 用 rbind () 、 
head () 和 tail () 函数 来 做 到 这 一 点 。 这 样 我 们 融 得 到 了 本 章 将 使 用 的 所 有 列 ， 将 在 下 一 节 中 对 它们 进行 一 些 介绍 : 


x <—- read.csv ("hihist2bedit.csv", colClasses = 


7))) 
rbind (head (x), 


Cc (NA,NA, NA, NA, rep ("NULL", 


tail (x)) 


> Year Year.1| Total.People Total Not.Covered 
SS 于 2 OD 311116.15 263165.47 479530.6840 
深 这 ll 2 S30B8Z F299 ZeUzd er A48013s3025 
> 过 上 (10) 2010 306553.20 20002 10 A49950.5004 
> 过 2009 2009 304279.92 255295.10 48984.8204 
> 二 2008 2008 301482.82 256702.42 44780.4031 
2 之 日 人 了 SAVIO 299105. 11 ZoD01l 1 .D2 4088.1840 
> 331 2004 (4) 2004 20062.67 19804.54 HA Wt We 
> 3 U0 U3 由 SS 33 1199649.92 246.5703 
和 号 3 2002 U2 19105.:99 19484.01 221 ,93819 
> 334 2001 2001 19533.99 19354.19 有 LB We Re 
”S339 ZUDY 13) 2000 上 32450522 19250.03 99.8811 
> 336 1999 {2,) 1999 19318,.506 19189. 41 189.3922 
> cat 
> 十 ALL AGES 
> ALL AGES 
> 3 ALL AGES 
> 4 ALL AGES 
> ALL AGES 
> 6 ALL AGES 
> 331 FEMALE 65 YEARS AND OVER 
> 332 FEMALE 65 YEARS AND OVER 
> 333 FEMALE 65 YEARS AND OVER 
> 334 FEMALE 65 YEARS AND OVER 
> 335 FEMALE 65 YEARS AND OVER 
> 336 FEMALE 65 YEARS AND OVER 


8.6 ”数据 的 舞 述 

Year 和 Year.1 (第 1 列 和 第 2 列 ) : 这 些 是 参 保 数据 的 年 份 。 你 会 注意 到 同一 个 年 份 会 出 现 两 次 : 第 1 列 (作为 一 个 因子 ) 和 
第 2 列 (作为 一 个 整数 ) 。 这 是 因为 数据 先前 已 做 过 预 处 理 ， 为 了 方便 而 记录 了 两 次 ， 因 为 在 某 些 情 况 下 我 们 更 喜欢 使 用 一 个 因 
子 ， 而 其 他 情况 下 我 们 更 喜欢 使 用 一 个 整数 。 年 份 括号 中 的 数字 是 指 原始 数据 源 中 的 脚注 。 请 参阅 CMS 网 站 上 的 参考 说 明 ， 了 
解数 据 是 如 何 收集 的 。 虽 然 在 代码 中 始终 可 以 通过 因子 创建 整数 ， 或 执行 相反 操作 ， 但 如 果 事 先 可 以 提供 某 些 转换 ， 则 可 以 节省 
宝贵 的 处 理 时 间 。 


忌 人 数 (Total.people， 第 3 列 ) : 总 人 数 是 该 类 别 的 人 数 规模 。 他 们 可 能 报名 参加 了 健康 保险 (total) ， 也 可 能 没有 报名 


(Not.Covered) 。 
忌 计 (Total， 第 4 列 ) : 当年 参加 健康 保险 的 在 cat 分 类 中 的 人 数 。 
Not.Covered (第 5 列 ) : Not.Covered 列 是 在 指定 年 份 和 类 别 未 参加 保险 的 人 数 。 
cat (第 6 列 ) : cat 是 一 个 时 间 序 列子 集 。 这 一 列 和 Year 一 起 定义 了 特定 的 行 。 它 定义 了 当年 参 保 的 具体 人 口 数据 。 
ALL AGES 类 别 代表 特定 年 份 的 全 部 人 数 。 文 件 中 的 所 有 其 他 子 集 一 起 汇 忆 到 这 个 类 别 。 


例如 ， 最 后 一 个 类 别 (作为 tail () 的 一 部 分 打印 ) 表示 超过 65 岁 的 女性 ， 这 是 ALL AGES 类 别 的 一 个 子 集 。 


8.7 ”目标 时 间 序 列 变 量 


我 们 将 首先 从 变量 Not.Covered 开 始 看 。 对 与 这 个 变量 有 关 的 任何 可 能 的 注册 趋势 ， 我 们 都 有 兴趣 检查 一 下 。 由 于 各 个 不 同 
类 别 的 人 口 规模 也 不 同 ， 因 此 我 们 来 计算 给 定年 份 中 未 参 保 人 员 的 百分比 ， 通 过 将 与 该 变量 相对 应 的 原始 数值 除 以 该 类 别 的 人 口 
忌 数 。 这 样 ， 我 们 残 得 到 了 一 个 名 为 Not.Covered.Pct 的 新 变量 。 我 们 把 这 种 做 法 作为 对 大 小 不 同 的 类 别 进行 标准 化 的 指标 ， 这 


SA 
总 数 。 


样 束 方便 比较 。 


计算 完 变 量 后 ， 我 们 可 以 输出 前 几 个 记录 ， 并 输出 这 个 变量 的 一 些 统计 信息 : 


请 注意 ， 所 有 年 份 的 平均 未 参 保 人 数 的 百分比 是 14.5%， 但 


可 以 看 到 变化 可 以 说 相当 大 。 这 可 以 理解 为 变化 涉及 的 人 数 很 多 。 


x$Not .Covered.Pct <- xS$Not.Covered/x$Total.People 


head (x) 

» Year Year.1| Total.People 
> 1 2012 | S11 
> AS 天 2011 了 
> 3 ZULU (LV) Ld se 
> 4 US “UDSY 3042719.9 
> 5 2008 2008 301482.8 
> 站 ZU po 299109.17 
> Not .Covered.Pct 

> 1 0.1541247 

”2 0.1574131 

> 0.1629424 

> 4 0.1609860 

与 0.1485338 

> 6 0.1474000 
summary (x$Not .Covered .Pct) 

Min. 1st Qu. Median Mean 3rd Qu. 


Total Not.Covered 


FA 
OU 
90 0 
Pee pe 
I0102. 
IOUL Js 


Max. 


5 


On 户 一 00 


47950. 
44901 
49950 . 
48984. 
44780. 
44088 . 


68 
46 
50 
G2 
40 
18 


ALL 
ALL 
ALL 
ALL 
ALL 
ALL 


U,V9205 DL09400. QQ. L45300 QL954200 U210400 0U 


对 一 个 典型 的 目标 变量 ,我 们 也 希望 看 到 


A 上 是、\ 
全 里 六 


hist (x$Not .Covered.Pct) 


布 的 基本 图 形 : 


通过 查看 第 一 和 第 三 四 分 位 数 (0.15-0.11) =0.04 之 间 的 差异 ， 你 


cat 
AGES 
AGES 
AGES 
AGES 
AGES 
AGES 


x$Not.Covered.Pct 的 直方 图 


0.15 0.20 
x$Not.Covered.Pc 





8.9 ”确定 所 有 子 集 组 


由 于 我 们 只 查看 文件 的 一 部 分 (通过 head () 或 tail () 锐 数 ) ， 因 此 不 知道 会 有 多 少 类 别 ， 以 及 它们 在 医疗 保健 方面 的 关 
异 。 所 以 我 们 将 从 一 些 分 组 的 工作 开始 。 


在 前 面 的 章 世 中， 我们 使 用 了 sql () 和 aggregate () 函数 来 给 数据 分 组 。 在 这 个 例子 中 ， 我 们 将 使 用 dplyr 软 件 包 . 
dplyr () 软件 包 的 一 个 优点 是 可 以 用 于 管道 语法 ， 即 它 人 允许 将 一 个 函数 的 结果 传递 给 下 一 个 函数 ， 而 不 需要 中 辐 赋值 : 


library (dplyr) 


Attaching package: 'dplyr' 
The following objects are masked from ‘package:stats' 


filter, lag 
The following objects are masked from ‘package:base' 


lntersect, setdiff, setequal, union 
Ser te 


打 V V V V V VvV Vv V 


by.cat 对 象 将 显示 保险 的 平均 人 数 ， 以 及 每 个 类 别 的 总 人 数 平 均值 。 请 记 住 ， 这 些 数据 也 按 年 份 分 组 ; 不 过 ， 我 们 只 想 了 解 
目前 所 有 年 份 的 平均 数 是 多 少 。 由 于 排列 功能 最 终 会 按 总 人 数 规模 (从 最 大 到 最 小 ) 对 数据 进行 排序 ， 因 此 我 们 可 以 看 到 数字 近 
预期 的 顺序 排列 : 


. ALL AGES 是 最 大 的 一 


. 然后 是 FEMALE ALL AGES ; 

. 接着 是 MALE ALL AGES ; 
by.cat <— x %>% select (cat, Total, 
group_by (cat) %>% 
summarise (Avg.Total.Insured = mean (Total),Avg.People 
= mean (Total.People)) %>% 
arrange (desc (Avg .People)) 
We 


Total.People) %$%>% 


此 处 可 以 做 一 个 完整 性 检查 ， 如 果 你 把 后 面 两 个 类 别 的 总 数 加 起 来 ， 可 以 看 到 它们 的 和 是 ALL AGES 类 别 的 人 数 。 


在 控制 台 上 ， 我 们 可 以 通过 str (by.cat) 函数 看 到 一 共有 24 个 类 别 : 


Ser (iy -Cat 


> Classes 'tbl_ df', 'tbl' and ‘data.frame': 24 obs. of 3 variables: 


8.10 ”将 汇总 数据 合并 回 原始 数据 


> $ cat Factor w/ 24 levels "18 to 24 YEARS",..: 7 14 22 24 
汪 注 这 23 由 

> S$ Avg.Total.Insured: num 251243 130201 121042 66200 34762 

> S$ Avg.People : num 294700 150330 144371 73752 42433 

by . Cat 

> Source: local data frame [24 x 3 

> 

> cat Avg.Total.Insured Avg.People 

> (Eat (dbl1) ol) 

> 1 ALL AGES 251242.96 294700.47 

汪 FEMALE ALL AGES L30200,.90 L30329, 73 

3 MALE ALL AGES 121042.06 144370.74 

> 4 UNDER 18 YEARS 66200 .46 3D2 od 

35 to 44 YEARS 34761.74 42433.12 

> 6 45 to D4 YEARS Cs 42100.20 

| 25 to 34 YEARS 29973.91 39942 .64 

> 8 MALE UNDER 18 YEARS G3 a 3 7UU。 710 

> 9 65 YEARS AND OVER 有 了 52 

> 10 FEMALE UNDER 18 YEARS 32367 59 36051 ;73 

> 


我 们 经 常会 需要 使 用 之 前 派生 的 一 些 计 算数 据 来 扩 元 原始 数据 。 在 这 些 情 况 下 ， 你 可 以 使 用 公共 键 值 将 数据 合并 回 原始 数 


据 。 再 一 次 ， 我 们 将 使 用 dplyr 包 来 获取 刚刚 获得 的 结果 (by.cat) ， 并 使 用 公共 键 值 cat 将 它们 连接 回 原始 数据 (x) 。 


我 们 将 使 用 一 个 left_join 作 为 示例 。 但 是 ,我 们 也 可 以 使 用 右 连 接 来 获得 相同 的 结果 ， 因 为 by.cat 完 全 是 从 x 派生 的 


了 这 两 个 数据 帧 之 后 ， 我 们 将 得 到 一 个 名 为 x2 的 新 数据 帧 : 


疆 全 


o 二 口 品 


# Merge the summary measures back into the original data. Merge by cat. 


XZ 一 Dy.Cat $F2>% left T0110n(xX By 二 "eat™") 

head (x2) 

> Source: local data frame [6 x 9| 

> 

> cat Avg.Total.Insured Avg.People Year Year .1 Total.People 
> 从 到 (dpb) (dbl1) (EC) (1nt} (JI 
> 1 ALL AGES 251243 294700 .5 2012 2012 | 
> 2 ALL AGES 251243 294700.5 之 局 SA OGZ1 2 
> 3 ALL AGES 251243 294700.5 2010 (10) 2010 00653 
> 4 ALL AGES 251243 294700 .5 2009 2009 304279.9 
> 5 ALL AGES 251243 2947100.5 2008 2008 301482.8 
> 6 ALL AGES 251243 294700 .5 <0U1 2007 299105,. 4 
> Variables not shown: Total (dbl), Not.Covered (dbl), Not.Covered.Ppct 

(dbl1) 


8.11 ” 枪 码 时 上 间 上 间隔 


在 前 面 ， 我 们 提 到 过 需要 有 相同 大 小 的 时 间 间 隅 。 另 外 ， 在 进行 任何 时 间 序 列 分 析 之 前 ,我 们 需要 检查 非 缺 失 时 间 间 隔 的 数 
量 。 那 么 ， 我 们 来 看 看 每 个 类 别 的 参 保 年 数 。 


使 用 dplyr 包 ,我们 可 以 用 函数 summarize (n () ) 来 计算 每 个 类 别 的 条 目 数量 : 


# -=- summarize and sort by the number of years 

yr.count <—- X2 %>% group_by(cat) %>% summarise(n = n()) %>% arrange (n) 
# —- we can see that there are 14 years for all of the groups. That is 
good ! 


DELINtIVE eounts 0) 
> Source: local data frame [24 x 2| 


> 

- a Ti 
> Pietry LENEtE,) 
> 18 to 24 YEARS 14 
2 25 to 34 YEARS 14 
:ee 35 to 44 YEARS 14 
> 4 45 to 54 YEARS 14 
ws DD to 64 YEARS 14 
> 6 65 YEARS AND OVER 14 
> ALL AGES 14 
> 8 FEMALE 18 to 24 YEARS 14 
> 9 FEMALE 25 to 34 YEARS 14 
> 10 FEMALE 35 to 44 YEARS 14 
六 


从 上 面 的 输出 可 以 看 出 ， 每 个 类 别 都 有 14 年 的 数据 出 现 。 


所 以 ， 在 这 个 示例 中 我 们 不 必 担 心 了 ， 每 个 子 集 都 有 统一 的 时 间 段 。 但 是 ,现实 中 的 情况 经 常 并 不 是 这 样 ， 如 果 遇 到 了 问 
题 ， 你 可 能 需要 进行 以 下 的 工作 : 


-为 数据 缺失 的 年 份 进行 数据 替换 。 


尝试 转换 为 等 间隔 的 时 间 序 列 。 也 许可 以 把 时 间 段 转化 为 更 大 的 单位 。 例 如 对 于 断断续续 的 每 日 数据 ， 可 以 尝试 转换 为 每 


周 、 每 月 或 每 季度 。 


` 使 用 专门 的 时 间 序 列 技术 来 处 理 不 等 间隔 的 时 间 序 列 。 


8.12 ” 按 平 均 人 数 挑选 最 高 级 别 的 群体 


在 很 多 情况 下 ， 我 们 只 想 查 看 最 高 级 别 的 类 别 ， 特 别 是 当 有 许多 类 别 有 大 量子 集 的 时 候 。 这 个 例子 中 只 有 24 个 类 别 。 但 是 


其 他 例子 中 可 能 会 有 更 多 的 类 别 。 


数据 帧 x2 已 经 用 Avg.People 进 行 过 排序 。 由 于 我 们 知道 每 个 类 别 有 14 个 参 保 记 录 ， 所 以 可 以 通过 选择 最 开始 的 14x10 (或 


140) 行 根据 最 高 基数 人 群 获得 前 10 个 类 别 。 我 们 将 把 它 存 储 在 一 个 新 的 数据 帧 x3 中 ， 并 保存 到 磁盘 。 


既然 我 们 已 经 知道 每 个 组 都 有 14 年 的 时 间 ， 那 么 提取 前 10 个 组 就 很 简单 。 从 x2 得 到 赋值 后 ， 输 出 前 15 条 记录 ， 会 注意 到 类 


别 在 前 14 条 记录 后 中 断 了 : 


X3 < 一 X2 [1: 

head (x3,15) 
cat Avg.Total.Insured Avg.People Year Year .1 Total.People Total 

Not .Covered 
> 


(44 ”JUhr | 


oltre CIty Susy Bl ab 


1 ALL AGES 251243.0 294700.5 2012 2012 311116.2 263165.5 47950.68 

2 ALL AGES 251243.0 294700.5 2011 2011 308827.2 260213.8 48613.46 

3 ALL AGES 251243.0 294700.5 2010 (10) 2010 306553.2 256602.7 49950.50 
4 ALL AGES 251243.0 294700.5 2009 2009 304279.9 255295.1 48984.82 

5 ALL AGES 251243.0 294700.5 2008 2008 301482.8 256702.4 44780.40 

6 ALL AGES 251243.0 294700.5 2007 2007 299105.7 255017.5 44088.18 

7 ALL AGES 251243.0 294700.5 2006 2006 296824.0 251609.6 45214.35 

8 ALL AGES 251243.0 294700.5 2005 2005 293834.4 250799.4 43034.92 

9 ALL AGES 251243.0 294700.5 2004 (4) 2004 291166.2 249413.9 41752 .26 
10 ALL AGES 251243.0 294700.5 2003 2003 288280.5 246331.7 41948.74 

11 ALL AGES 251243.0 294700.5 2002 2002 285933.4 246157.5 39775.92 

12 ALL AGES 251243.0 294700.5 2001 2001 282082.0 244058.6 38023.33 

13 ALL AGES 251243.0 294700.5 2000 (3) 2000 27195171.4 242931.5 36585.81 
14 ALL AGES 251243.0 294700.5 1999 (2) 1999 276803.8 239102.0 37701.81 
15 EEMALE ALL AGES 1302009 150329.1 2012 2012 T58780.9 1363151. Z2405¢078 
save (x3, file = "x3.RData") 


8.13 ”使 用 lattice 绘 


| 数据 


lattice 包 是 一 个 很 有 用 的 包 ， 值 得 我 们 学 习 ， 尤 其 是 对 喜欢 用 公式 符号 


(y~X) 的 分 析 师 来 说 。 


在 这 个 例子 中 ， 我 们 将 运行 一 个 点 阵 图 ， 以 便 在 y 轴 上 绘制 Not.Covered.Pct， 在 x 轴 上 绘制 Year， 并 按 类 别 生 成 单独 的 图 。 


主 钢 数 调用 由 下 面 的 代码 指定 : 


xyplot (Not .Covered.Pct ~ Year | cat, data = x3) 


由 于 我 们 正在 绘制 排名 前 10 的 组 ， 所 以 可 以 指定 layout=c (5，2) 来 表示 我 们 想 要 在 5x2 和 矩 阵 中 排列 10 个 图 。 
Not.Covered.Pct 将 安排 在 y 轴 (~ 符号 的 左 侧 ) 上 ，Year 安 排 在 x 轴 (~ 符号 的 右 侧 ) 。 分 栏 符 (|) 表示 数据 要 按 各 个 类 别 分 
别 绘制 |: 


library (lattice) 

x.tick.number <— 14 

at <—- seq(1, nrow(x3), length.out = x.tick.number) 

labels <- round(seq(1999, 2012, length.out = x.tick.number),) 


P <- xyplot (Not .Covered.Pct ~ Year | cat, data = x3, type = "1]", main = 
list(label = "Enrollment by Categories", 

CeX = 1), par.strip.text = list(cex = 0.5), scales = list(x = 
list(labels = labels), 

Cex = 0.4, rot = 45), layout = c(S, 2)) 


trellis.device() 


print (p) 


不 同类 列 的 参 保 人 数 


Not.Covered.Pct 
O00 0.09 0.10 0.15 0O0.20 0.25 














8.14 ”使 用 ggplot 绘 制 数 据 


如 果 你 喜欢 使 用 ggplot， 则 可 以 使 用 facet 泻 染 一 组 类 似 的 图 形 : 





0.00 0.0s 0.10 0.15 0.20 0.25 


regquire("ggplot2") 


.df <—- data.frame (x = x3SYear.1, y = x395Not.Covered.Pct, z = x35cat, s = 


wDeat) 

df <= df[lorder!(. dfSx}, | 

.Plot <- ggplot (data = .df, aes(x = x, y = y, colour = z, Shape = z)) 
+ geom_ point () 

+ geom_line(size = 1) 

+ scale_shape_manual (values = seq(0, 195)) 

+ scale_y_continuous (expand = c(0.01, 0)) 

+ facet_wrap (~s) 

t+. xlabl Year 1"™) 

+ ylab("Not.Covered.Pct") 

+ labs(colour = "cat", shape = "cat™") 

+ theme (panel.margin = unit(0.3, "lines"), legend.position = "none") 
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8.15 ”将 输出 友人 这 到 外 部 文件 


将 绘图 分 配给 绘图 对 象 的 好 处 乙 一 是 ， 你 可 以 稍 后 将 绘图 友 送 到 外 部 文件 〈 例 如 PDF) 并 在 外 部 查看 它 ， 甚 至 可 以 从 R 环 境 
里 直接 用 浏览 器 查看 绘图 。 比 如 说 ， 以 lattice 绘 图 为 例 ， 你 可 以 使 用 trellis.device 并 指定 输出 参数 ， 然 后 输出 该 对 象 。 正 如 我 们 


在 前 面 的 章节 中 介绍 过 的 那样 ， 你 可 以 使 用 浏览 器 打开 PDF : 
# send to pdf 
setwd("C:/PracticalPredictiveAnalytics/Outputs") 
trellis.device (pdf, file = "x3.pdf") 
Den 
dev.off/() 


#NOT run 
#browseURL('file://c://PracticalPredictiveAnalytics//Outputs//x3.pdf') 


8.16” 检 树 答 出 


如 果 我 们 检查 排 在 前 面 的 几 个 图 形 ， 可 以 看 到 一 些 群 体 似乎 比 其 他 群体 有 着 更 明显 的 趋向 性 。 例 如 ，18 岁 以 下 年 龄 组 的 参 
保 率 呈 下 降 趋势 ， 而 25 ~ 54 岁 年 龄 组 则 呈 上 升 趋势 。 


8.17 ”检测 线性 趋势 


在 线性 趋势 模型 中 ， 通 过 对 数据 点 运行 Im () 回归 ， 我 们 可 以 构建 线性 回归 最 小 二 乘 线 。 这 些 模型 对 初步 探索 趋势 具有 民 
好 的 视 部 效 果 。 我 们 可 以 利用 Im () 函数 (在 基本 R 中 可 用 ) 来 专门 计算 趋势 线 的 斜率 。 


例如 ， 前 14 行 显示 整个 组 的 数据 (ALL AGES) 。 对 于 编号 为 1~ 14 的 每 个 年 份 ， 我 们 可 以 对 Not.Covered.Pct 进 行 回 归 ， 
并 且 看 到 Year.1 变 量 的 系数 为 正 数 ， 表 明 未 参 保 的 百分比 随 着 时 间 的 推移 而 线性 增加 。 


我 们 也 可 以 通过 将 Im () 函数 放 在 coef () 函数 中 来 自动 输出 系数 。 
使 用 Im () 函数 运行 回归 后 ， 我 们 可 以 使 用 coef () 函数 从 Im 模 型 中 提取 和 斜率 和 截 距 。 
由 于 这 是 只 有 一 个 自 变量 (时 间 ) 的 回归 ， 所 以 只 有 一 个 系数 : 


lm(Not.Covered.Pct ~ Year.1，daata = x2[1:14, |]) 


> 

> Call: 

> lm(formula = Not.Covered.Pct ~ Year.1, data = x2[1:14, |]) 
和 

> Coefficients: 

> (Intercept) Year.1] 

» “Gal 1 加 

coef (lm(Not.Covered.Pct ~ Year.1, data = x2[1:14, |])) 

> (Intercept) Year.1 


» dl102Z021443: QUD2LT9UDb 


8.18” 目 动 化 回归 


我 们 已 经 看 到 了 如 何 运行 单个 时 间 序 列 的 回归 ， 现 在 可 以 开始 把 单独 的 回归 上 自动化， 然后 提取 所 有 类 别 的 系数 。 
有 几 种 方法 可 以 做 到 这 一 点 。 其 中 一 种 万 法 是 使 用 dplyr 包 中 的 do () 函数 。 下 面 是 进行 目 动 化 的 事件 顺序 : 


- 首先 按 类 别 对 数据 进行 分 组 。 然 后 ， 针 对 每 个 类 别 运行 线性 回归 (lm () 函数 ) ， 其 中 年 份 为 自 变 量 ，Not.Coveted 为 因 


按 类 另 
变量 。 这 些 都 包装 在 一 个 do () 函数 中 。 


` 系数 是 从 模型 中 提取 的 。 系 数 将 代表 趋势 的 方向 和 大 省 


一 > 一 


. 最 后 ， 创 建 一 个 列表 的 数据 帧 (fitted.models) ， 其 中 系数 和 截 距 存 储 每 个 类 别 的 每 个 回归 运行 。 正 系数 最 高 的 类 别 呈 现 
最 大 的 线性 增长 趋势 ， 而 下 降 趋 势 则 表现 为 负 系 数 : 


library (dplyr) 

fitted models = x2 %$>% 
group_by (cat) %>% 
do(model = coef (lm(Not .Covered.Pct ~ Year.1, data = .))) 


所 有 生成 的 模型 现在 都 在 fitted.models 对 象 中 。 


knitr 的 kable 函 数 给 出 了 一 个 简单 的 输出 ， 它 将 截 距 显 示 为 模型 列 中 的 第 一 个 数字 和 系数 。 此 处 还 可 以 做 一 个 检查 ， 可 以 看 
到 ALL AGES 模 型 中 的 系数 与 前 一 节 中 推导 的 系数 相同 : 


library (knitr) 
kable (fitted models) 


Cat Model 
18 to 24 YEARS —0.4061834427, 0.0003367988 
25 to 34 YEARS -11.373187397, 0.005796182 
35 to 44 YEARS —10.916822084, 0.003334037 
45 to 5S4 YEARS —11.544566448, 0.005829194 
55 to 64 YEARS —4.709612146, 0.002409908 
03 YEARS AND OVER —1.2562375095, 0.0006334125 
ALL AGES —4.102621443, 0.002119038 
FEMALE 18 to 24 YEARS -2.077300003, 0.001433388 
FEMALE 25 to 34 YEARS —9.990978769, 0.003088009 
FEMALE 35 to 44 YEARS -9.304724041, 0.004830188 
FEMALE 45 to 54 YEARS —10.36336551, 0.00523537 
FEMALE $5 to 64 YEARS -4.102774937, 0.002108343 
FEMALE 03 YEARS AND OVER —1.3674510779, 0.0006887743 
FEMALE ALL AGES —3.817483824, 0.001970059 
FEMALE UNDER 18 YEARS 3.267593386, -0.001378328 
MALE 18 to 24 YEARS 4.036127727, -0.001802991 


MALE 25 to 34 YEARS -9.713930280, 0.004983621 


( 续 ) 


Cat Model 

MALE 35 to 44 YEARS —7.706624821, 0.003941543 
MALE 45 to 34 YEARS —10.975387917, 0.005549255 
MALE S55 to 64 YEARS -3.370380344, 0.002738269 
MALE 65 YEARS AND OVER —0.4834523450, 0.0002479691 
MALE ALL AGES -4.313036938, 0.002232003 
MALE UNDER 18 YEARS 2.914343264, -0.001401998 
UNDER 18 YEARS 3.086509947, -0.001487938 


8.19 ”对 系数 进行 排序 


得 到 了 系数 以 后 ， 我 们 融 可 以 开始 按 增 长 的 趋势 对 每 个 类 别 进 行 排序 。 由 于 迄今 为 止 获得 的 内 容 都 包含 在 府 入 陈列 表 中 ， 而 
这 些 家 入 式 列 表 处 理 起 来 有 点 困难 ,我 们 可 以 执行 一 些 代码 操作 将 它们 转换 为 常规 的 数据 框架 ,每 个 类 别 一 行 ， 包 括 类 别名 称 、 
系数 和 系数 排名 : 

ibrary (dpLyr) 

# extract the coefficients part from the model list, and then transpose the 


# data frame so that the coefficient appear one per row, rather than 1 per 
# column. 


xx <—- as.data.frame (fitted modelss$model) 
XX2 <—- as.data.frame (t (xx[2, |])) 


# The output does not contain the category name, so we will merge it back 
# from the original data frame. 


xx4 <— cbind (xx2, as.data.frame (fitted models))[, c(1, 2)|] #only keep the 
first two columns 


# rank the coefficients from lowest to highest. Force the format of the 
rank 
# as length 2, with leading zero's 


tmp x= SOEINILE( SOV2d",: Tank (xxals TJ),) 


# Finally prepend the rank to the actual category 
xx4S5rankcat <- as.factor(paste(tmp, "-", as.character (xx4$cat))) 


# name the columns 

names (xx4) < 一 c("l]m.coef", "cat”", “coef.rank") 
# and View the results 

View (xx4) 


正如 下 图 所 示 ， 现 在 第 2 ~ 4 列 整 齐 地 排列 着 coefficients、category 和 coef.rank 的 数值 ， 这 是 通过 把 Im.coef 从 最 小 到 最 大 
排列 得 到 的 ， 然 后 假装 排列 顺序 是 类 别 : 


Te ne 
errno 4.10262144273963-0.00211905813. | 00021190581 | ALAGES 2ALAGS 
FNALE 25 to 34 EARS 
08 FEMALE 65 YEARS AND OVER 
FEMALE UNDER TYEARS 


02 - FEMALE UNDER 18 YEARS 


structure.c..9.71393028379037..0.00498362081 0.0049836208 | MALE 25 to 34 YEARS 18 - MALE 25 to 34 YEARS 
Structure.c..7.70662482144783..0.00394154306. 0.0039415431 | MALE 35 to 44 YEARS 16 - MALE 35 to 44 YEARS 


Structure.c..10.9753879171274..0.00554925524 0.0055492552 | MALE 45 to 54 YEARS 22 - MALE 45 to 54 YEARS 
Structure.c..5.37038054369785..0.00273826914. 0.0027382691 | MALE S55 to 64 YEARS 15 - MALE S55 to 64 YEARS 





Structure.c.3.26759338613744...0.00157832779... | -0.0013783278 | FEMALE UNDER 18 YEARS 


Structure.c..3.81748382391257..0.001970053880 0.0019700588 | FEMALE ALL AGES 
structure.c.4.03612772673809...0.00186299125... | -0.0018629913 | MALE 18 to 24 YEARS 01 - MALE 18 to 24 YEARS 


8.20 ”将 分 效 合并 回 原始 的 数据 帆 


我 们 将 用 这 些 新 的 信息 来 扩充 原来 的 x2 数 据 帧 ， 做 法 是 先 按 类 别 合并 ， 然 后 按照 系数 的 顺序 对 数据 帧 进行 排序 。 这 样 我 们 
就 能 够 用 它 来 表现 趋势 : 


< 一 Xx2 %>% left_Join (xx4, by = "cat") %>% arrange (coef .zank cat) 


# exclude some columns so as to fit on one page 


head (x2x[, c(-2, -3, -4, -8)]) 

> Source: local data frame [6 x 7| 

> 

> cat Year.1| Total.People Total Not .Covered.Ppct 
> (EEE Ca (dbl1) (dbl1) Fas 
> 1 MALE 18 to 24 YEARS SU 15142.04 11091.86 0.2674787 
> 2 MALE 18 to 24 YEARS ZU11 | 1 .By T1028 75 7200034 
> 3 MALE 18 to 24 YEARS LQ 14986.02 10646.88 0.2895460 
> 4 MALE 18 to 24 YEARS 2010 14837.14 10109.82 e350L3Y 
> 5 MALE 18 to 24 YEARS 2008 14508.04 10021.66 O3092339 
> 6 MALE 18 to 24 YEARS Uy amd 9 L0230 .6061 0.2891425 
> Variables not shown: lm.coef (dbl), coef.rank (fctr) 


8.21 


用 趋势 线 绘制 | 数据 


既然 已 经 有 了 趋势 系数 ， 我 们 将 首先 使 用 ggplot 来 绘制 所 有 24 个 类 别 的 参 保 情况 的 图 表 ， 然 后 基于 计算 的 线性 系数 ， 加 上 
趋势 线 ， 来 创建 第 二 组 图 表 。 


代码 注释 : facet_wrap 将 按照 变量 z 的 值 对 图 进行 排序 ， 因 为 系数 的 级 别 赋值 给 了 z。 因 此 ， 排 在 最 前 面 的 是 参 保 人 数 下 降 
的 类 别 ， 最 后 面 的 是 1999 ~ 2012 年 参 保 率 最 高 的 类 别 。 


我 喜欢 将 变量 指定 为 标准 变量 名 称 ， 例 如 x、y 和 z， 这 样 我 就 可 以 记 住 它们 的 用 法 〈 例 如 ， 变 量 x 始 终 是 变量 x，y 始 终 是 变量 


y) 。 但 是 你 可 以 在 ggplot 的 调用 中 直接 提供 变量 名 ， 或 者 设置 你 自己 的 函数 来 做 同样 的 事 : 


library (oogplotz) 

.df <—- data.frame (x = x2xS$Year.1, y = x2xS$Not .Covered.Pct, z = 
X2X9S93Ccoef .rank，SlLlope = x2x$51lm.coef) 

#use ggplot to layer the different components of the visualization 
.Plot <- ggplot (data = .df, aes(x = x, y = y, Colour = 1, shape = 2z)) 
geom_point () 

Scale_shape_manual (values = seg(0, 24)) 

scale_y_continuous (expand = c(0.1,0)) 

scale_x_continuous (expand = c(0.1, 1)) 

facet_ wrap(~z) + xlab ("Year.1") 

ylab ("Not .Covered.Pct") 

labs (colour = "cat", shape = "cat™") 

theme (panel.margin = unit (0.3,"points"), legend.position = "none") 
theme (strip.text.x = element_ text (size = 6)) 
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正如 你 所 看 到 的 ， 对 于 ALL AGES 类 别 ， 在 2010 年 (此 时 美国 平价 医疗 法 案 颁 布 ) 之 前 ， 未 参 保 的 百分比 是 逐渐 增加 的 ， 这 


一 年 之 后 自分 比 开 始 下 降 。 但 在 同一 时 期 ，18 岁 以 下 的 未 参 保 人 群 相 对 人 口 比例 呈 下 降 趋 势 。 


我 们 可 以 仔细 看 查 顶 部 和 底部 的 4 个 类 别 以 及 ALL AGEs 类 别 来 更 深入 地 检验 这 一 点 。 这 一 


数 来 添加 目 己 的 趋势 线 ， 这 样 会 多 一 个 线性 回归 趋势 线 : 


# declining enrollment 
:df2z <~— Ybind(headt(:dfs C4*14}}: 七 LE (4*14)})s :wdfl 
AGES", |]) 


.Plot2 <- ggplot (data = .df2, aes(x = x, y = y, Colour 
+ geom_ point () 

+ scale_shape_manual (values = seg(0, nrow(.df2))) 

+ scale_y_continuous (expand = c(0.1,0)) 

+ scale x continuous (expand = c(0.1, 1)) 

+ facet _ wrap (~z) 

+ xlab ("Year.1") 

+ ylab ("Not.Covered.Pct") 

+ labs(colour = "cat", shape = "cat") 

+ theme (panel.margin = unit (0.3,"points"),1legend.posit 
+ geom_ smooth (method = "lm", se = FALSE,colour = "red" 
.Plot2 <- ggplot (data = .df2, aes(x = x, y = y, CoOlour 
+ geom point () 

+ Scale_shape_manual (values = segq(0, nrow(.df2))) 

+ scale_y_continuous (expand = c(0.1,0)) 

+ scale_ x_continuous (expand = c(0.1, 1)) 

+ facet_wrap (~z) 

+ xlab ("Year.1") 

+ ylab ("Not.Covered.Pct") 

+ labs(colour = "cat", shape = "cat") 

+ theme (panel .margin = unit (0.3,"points"),1legend.posit 
+ geom_ smooth (method = "lm", se = FALSE,colour = "red" 
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次 ,我 们 将 使 用 geom _smooth 参 


8.22 ”绘制 一 个 图 表 上 的 全 部 类 别 


有 时 候 ， 在 一 张 图 上 绘制 所 有 的 线 ， 会 比 给 它们 绘制 多 个 独立 的 图 表 更 好 。 为 了 实现 这 个 目的 ， 我 们 将 更 改 一 下 语法 ， 这 样 
类 别 咒 会 显示 为 层 赤 线 。 用 这 种 方法 ， 我 们 可 以 看 到 不 同年 龄 段 的 未 参 保 人 数目 分 比 ， 其 中 18 罗 以 下 的 人 未 参 保 率 最 低 ，25 ~ 
54 风 的 人 未 参 保 率 最 高 : 


lbDrarvidgodn Lot 
### plot all on one graph 


.df <— x3[order (x3S$Year.1), | 


.Plot <- ggplot (data = .df, aes(x = Year.1, y = Not.Covered.Pct, colour = 
cat, shape = cat)) 

+ geom point () 

+ geom_ line(size = 1) 

+ scale_shape_manual (values = seg(0,15)) 

+ ylab ("Not.Covered.Pct") 

+ labs(colour = "cat", shape = "cat") 

+ theme_bw(base_size = 14,base_famlly = "serif") 
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添加 标签 


有 时 很 难 区 分 用 图 例 来 区 分 的 多 个 类 别 之 间 的 达 异 ， 特 别 是 随 着 类 别 数量 的 增加 会 变 得 更 困难 ， 所 以 我 们 可 以 用 
directlabels 库 为 每 一 行 标记 类 别名 称 。 例 如 从 下 图 中 我 们 可 以 看 出 ， 在 所 有 时 间 段 内 ， 全 部 男性 的 未 参 保 率 都 局 于 全 部 女性 。 


#install.packages ("directlabels") 
library (directlabels) 


direct.label(.plot, list(last.points, hjust = 0.75, cex = 0.75, vjust = 0)) 


忆 
A 
本 =， 
Dd 
5 
> 
已 
= 
© 
pA 


ARB-AND OVEP 





8.23 ”使 用 ets 消 数 执 行 一 些 目 动 预 测 


到 目前 为 止 , 我 们 已 经 研究 了 一 些 能 够 探 乏 数据 中 可 能 存在 的 任何 线性 趋势 的 万 式 。 这 为 下 一 步 的 预测 提供 了 坚实 的 基础 。 
现在 开始 考虑 如 何 执行 一 些 实际 的 预测 .。 
将 数据 帧 转换 为 时 间 序列 对 象 


作为 准备 步 又， 我们 将 使 用 ts 函数 把 数据 帧 转换 为 时 间 序 列 对 象 。 在 转换 为 ts 对 稼 乙 前 ， 时 间 序 列 必 须 是 等 间距 的 ， 这 一 点 
很 重要 。 作 为 ts 销 数 的 参数 ， 你 至少 需要 提供 时 间 序 列 变量 ， 以 及 开始 和 结束 日 期 。 


创建 了 一 个 新 对 象 x 之 后 ， 运 行 str () 函数 来 验证 从 1999 ~ 2012 年 的 所 有 14 个 时 间 序 列 都 已 经 创建 完成 : 


# only extract the 'ALL' timeseries 
x <— ts(x295Not.Covered.Pct[1:14], start = c(1999), end = c(2012), frequency 
str 1X) 


” Time~ Series [i114] from. L999 to 2zUl2s Qlod UU. 0.160603 UDolio6l DU.l49 。.. 


8.24 ”使 用 移动 平均 线 来 使 数据 平滑 


有 一 种 用 于 分 析 时 间 序 丈 的 技术 ， 使 用 入 单 移动 平均 线 和 指数 移动 平均 线 。 简 单 移动 平均 线 和 指数 移动 平均 线 都 可 以 消除 序 
列 中 的 随机 噪音 ， 并 观察 周期 和 趋势 。 


8.25 ”信里 移动 平均 线 


人 入 日 移 动 平均 线 将 简单 地 取出 k 个 时 间 段 的 时 间 序 列 变 量 的 总 和 ， 然 后 除 以 变量 的 数量 。 从 这 个 意义 上 讲 ， 它 与 平均 值 的 计 
算是 相同 的 。 但 是 ， 与 简单 的 平均 值 的 不 同 之 处 在 于 : 


- 每 增加 一 个 时 间 周 期 ， 平 均线 都 会 改变 。 移 动 平 均线 是 向 后 看 的 ， 每 移动 一 个 时 间 周 期 ， 平 均线 也 会 随 之 改变 。 这 就 是 为 
什么 它 叫 作 移 动 平均 线 。 移 动 平均 线 有 时 也 称 为 滚动 平均 线 。 


- 向 后 看 的 时 间 周 期 长 度 也 可 以 改变 。 这 是 移动 平均 线 的 第 二 个 特征 。10 周 期 移动 平均 线 将 取 最 近 10 个 数据 元 素 的 平均 值 ， 


而 20 周 期 移动 平均 线 会 取 最 近 20 个 数据 点 的 总 和 ， 然 后 除 以 20。 


使 用 函数 计算 SMA 


为 了 计算 数据 滚动 5 周期 的 移动 平均 线 ， 我 们 将 使 用 TTR 包 中 的 简单 移动 平均 线 (SMA) 消 数 ， 然 后 显示 结果 的 前 几 行 : 


#install.packages ("TTR") 
Li.Orary lL 


MA <= SMA(x; nN = .2) 
cbind (head (x, 14), head (MA, 14)) 
> [,1] [, 2] 
> [1,] 0.1541247 NA 
> lar 334 NA 
> [3,] 0.1629424 NA 
> | 二 | sl609860 NA 
Lorl UU L460338 AonG8U0Y 
> [6,] 0.1474000 0.1554551 
> [7,] 0.1523271 0.1544379 
> [8,] 0.1464598 0.1511414 
> I] Qla3396 WlaAto23D 
> [10,] 0.1455136 0.1470194 
| 
> [12,] 0.1347953 0.1418549 
> [13,] 0.1308892 0.13871408 
> T1451] Qi362041 O1373023 


有 很 多 方法 可 以 用 原始 数据 绘制 移动 平均 线 。 在 基础 的 R 语 言 中 、 可 以 使 用 tsplot () 函数 ， 它 将 原始 序 询 和 该 序列 的 移动 


平均 线 作为 参数 : 


ts.plot (x, MA, gpars = list (xlab = "year", ylab = "Percentage of Non-— 


Insured", 
lty = c(i1:2))) 
title("Percentage of Non-Insured 1999-2012 - With SMA") 


下 图 中 ， 实 线 表 示 原 始 数 据 ， 虚 线 表 示 移 动 平均 线 : 

你 可 以 看 到 移动 平均 绪 如 何 帮助 显示 数据 的 上 升 和 下 降 的 变化 ， 它 还 有 助 于 平滑 数据 以 帮助 消除 一 些 噪音 。 另 外 请 注意 ， 移 
动 平均 续 需 要 一 些 起 始 数据 来 开始 计算 ， 所 以 这 融 是 为 什么 在 图 的 前 4 个 时 间 段 中 虚线 表示 的 移动 平均 续 是 缺失 的 。 只 有 到 了 第 
5 个 时 间 段 ， 才 能 通过 加 总 与 1999 ~ 2003 年 相对 应 的 数 人 再 除 以 ?来 确定 计算 值 。 下 一 个 点 是 通过 加 总 对 应 于 2000 ~ 2004 年 的 
时 间 段 的 数值 ， 然 后 再 除 以 ?得 出 的 。 


1999 一 2012 年 间 未 参 保 人 员 百 分 比 的 简单 移动 平均 线 
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8.26 ”验证 SMA 的 计算 值 


能 够 验证 计算 ， 确 保 取得 的 值 是 正确 的 ， 并 且 加 深 了 解 ， 一 直 是 非常 重要 的 。 
在 SMA 阔 数 的 例子 中 ， 我 们 可 以 切换 到 控制 台 ， 并 计算 最 后 5 个 数据 点 的 SMA 值 。 


首先 ,我 们 计算 元 素 的 总 和 ， 然 后 除 以 移动 平均 线 中 的 数据 点 的 数量 (5) : 


sum{x[10:14] }/5 
1017 


这 与 时 间 段 14 中 9SMA 那 一 列 的 值 完 全 匹配 。 


8.27 ”指数 移动 平均 续 


简单 移动 平均 线 (SMA) 对 于 所 有 数据 点 都 给 予 相同 的 权重 ， 无 论 它 们 是 很 旧 的 数据 还 是 最 近 才 友 生 的 数据 。 指 数 移动 平 
均线 (EMA) 则 对 最 近 的 数据 给 予 更 多 的 权重 ,假设 未 来 更 可 能 看 起 来 像 最 近 的 过 去 ， 而 不 是 更 远 的 过 去 。 


EMA 实 际 上 是 一 个 更 简单 的 计算 。EMA 开 始 的 时 候 计算 的 是 一 个 简单 的 移动 平均 线 。 当 达到 指定 的 回溯 周期 数 (n) 时 ， 
它 通 过 为 当前 值 和 前 一 个 值 分 配 不 同 的 权重 来 计算 当前 值 。 


该 权重 由 平滑 (或 比率 ) 因子 指定 。 当 ratio=1 时 ， 预 测 值 完全 基于 上 一 次 的 值 。 对 于 比率 b=0， 预 测 基于 整个 回顾 周期 的 
平均 值 。 因 此 ， 平 滑 因子 越 接近 1， 最 近 的 数据 的 权重 就 越 大 。 如 果 你 想 给 旧 数据 更 多 的 权重 ， 请 将 平滑 因子 往 0 的 方向 调整 。 


EMA 的 一 般 计 算 公 式 如 下 : 
(当前 数据 点 -EMA (前 一 个 ) ) x 平滑 因子 +EMA (前 一 个 ) 


要 计算 EMA， 可 以 使 用 EMA () 函数 (来 目 TTR 包 ) 。 你 需要 指定 一 个 平滑 单数 (比率) ， 以 及 一 个 回顾 期 (n) 。 


8.27.1 使 用 闻 数 计算 EMA 


下 面 的 代码 将 计算 一 个 比率 为 0.8 的 EMA， 使 用 的 回顾 期 为 ?。0.8 的 比率 将 给 最 近 时 期 的 值 加 上 最 大 的 权重 ， 同 时 仍 人 允许 过 
去 时 期 的 值 对 预测 产生 影响 。 


然后 使 用 cbind () 来 显示 数据 点 、 人 简单 移动 平均 线 和 指数 移动 平均 续 : 


EXPMA <- EMA(x, nN = 5,) 
cbind (head (x, 15), head (MA, 
> [,1] [,2] 
> > Ql1541241) NA 
TZ2el Qs L504.31 NA 
> [3,] 0.1629424 NA 
> [4,] 0.1609860 NA 
» L535y] Qs.1485338 DL568000 
> [6,] 0.1474000 0.1554551 
> [7,] 0.1523271 0.1544379 
> [8,] 0.1464598 0.1511414 
> [9,] 0.1433967 0.1476235 
> [10,] 0.1455136 0.1470194 
= [lll US US 
> [12,] 0.1347953 0.1418549 
> [13,] 0.1308892 0.1387408 
> [14;|] Ql13062041 O1373023 
ts.plot (x, ExpMA, 


Insured", 


lty = c(i1:2))) 


title("Percentage 
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gpars = list (xlab = 


of Non-Insured 1999-2012 


head (ExpMA, 


ylab = 


1 2)) 


"Percentage of Non-— 


— With EMA™") 


下 图 以 图 形 形 式 显 示 数 据 。 可 以 看 到 ， 相 对 于 SMA， 每 个 数据 点 更 接近 其 EMA。 如 前 所 述 ，SMA 在 回顾 期 对 所 有 以 前 的 数 
据点 采用 相同 的 权重 。 在 这 万 面 ，EMA 对 最 近 的 数据 有 反应 较 快 ， 而 SMA 移 动 较 慢 ， 变 异性 较 小 。 当 然 ， 两 者 都 受到 参数 (特别 
是 回顾 期 ) 的 影响 。 在 这 两 种 情况 下 ， 回 顾 期 增长 的 话 会 使 移动 平均 线 的 反应 变 慢 。 
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1999 一 2012 年 间 未 参 保 人 员 百 分 比 的 指数 移动 平均 线 





8.27.2 选择 平 骨 因子 


有 时 ， 你 通过 上 自己 处 理 数据 的 经 验 来 选择 合适 的 平滑 因子 ， 表 达 目 己 对 于 如 何 期 竺 未 来 行为 的 看 法 。 例 如 ， 如 果 你 认为 数据 
最 近 已 经 友 生 改变 来 反映 新 模式 ， 则 可 能 需要 假设 最 近 的 数据 更 为 重要 ， 并 使 用 接近 1 的 平滑 因子 。 相 反 如 果 你 认为 最 近 的 活动 
只 是 由 于 随机 波动， 可 能 希望 选择 较 低 的 平滑 因子 来 给 予 过 去 更 多 的 权重 。 处 理 最 近 的 过 去 和 久远 的 过 去 的 平滑 因子 也 可 能 是 
0.5。 重 点 在 于 我 们 并 不 忌 是 需要 目 动 优化 平滑 因子 (这 操 会 在 后 面 讲 到 ) 。 


8.29 使 用 ALL AGES 做 预测 


在 下 面 的 代码 中 会 执行 以 下 几 个 步骤 
1) 首先 ,过滤 数 据 ， 使 其 只 包 合 ALL AGES 类 别 |。 
2) 然后 ， 创 建 一 个 时 间 序 列 对 象 。 
3) 最 后 ， 使 用 ets () 消 数 运行 简 蛙 的 指数 模型 。 


请 注意 ， 我 们 没有 指定 平滑 因子 。ets () 函数 计算 最 佳 平滑 因子 alpha， 通过 summary () 函数 ( 粗 体 显示 ) 显示 ) ， 
在 这 个 例子 中 为 0.99， 这 意味 着 需要 把 模型 时 间 序 列 大 约 99% 的 数据 纳入 下 一 个 时 间 序 列 预测 


library (dplyr) 

> 

> Attaching package: ‘'dplyr' 

> The following objects are masked from ‘package:stats' 


> 

> filter, lag 

> The following objects are masked from ‘package:base,' 
> 

> intersect, setdiff, setequal, union 


library (forecast) 
> Loading reqgquired package: Zoo 


> Attaching package: 'zZoOoO' 
> The following objects are masked from ‘package:base' 
> 


> as.Date, as.Date.numeric 

> Loading reguired package: timeDate 
> This is forecast 7.1 

X4 <— x2 [x2S$cat == "ALL AGES", | 


# set up as a time series object 
x < 一 ts(x4$Not.Covered.Pct, start = c(1999), end = c(2012), frequency = 1) 


fit <—- ets(x, model = "ANN") 
summary (fit) 
> ETS (A,N,N) 


Call: 
ets(ly = x, model = "ANN") 


Smoothing parameters.: 
alpha = 0.9999 


Initial states: 
L941 


sigma: 0.0052 


AIC AICC BL 
“J "LS Zo “lS QT 


Training set error measures: 


ME RMSE MAE MPE MAPE 
TIranLng Set = 0ULZH9923 UYU ODL9L1013 De00430566 =0 .445532 ZI50436 
MASE ACF1 


VV VV VV VV VV VV VV VV VV VV 


Training set 0.9286549 0.004655079 


8.30 ”经 制 预 则 值 和 实际 全 


接 下 来 ， 我 们 可 以 绘制 预测 值 与 实际 值 。 请 注意 ， 预 测 值 与 实际 值 几乎 相同 。 然 而 ， 预 测 值 总 是 比 实际 值 早 一 步 : 


BLOL TX 
lines (fits$fitted, col = "red") 


ss 


2002 2004 2006 2008 2010 2012 
时 间 





8.31 forecast (fit) 方法 


forecast 广 法 包 合 许多 可 以 显示 的 对 象 ， 如 拟 合 值 、 原 始 值 、 置 信 区 间 和 和 残 差 。 我 们 使 用 str (forecast (fit) ) 来 查看 哪些 
对 象 可 以 利用 。 


我 们 将 使 用 cbind 输 出 原始 数据 点 、 拟 合 数据 点 和 模型 拟 合 方法 。 


cbind (forecast (fit) $method, forecast (fit) $x, forecast (fit) $fitted,forecast (f1 


t)sresiduals) 
Time Serles : 
Start = 1999 
End = 2012 
Frequency = 1 


forecast (fit) Smethod forecast (fit) Sx forecast (fit) Sfitted 


forecast (fit) Sresiduals 


1999 ETS(A,N,N) 0.15412470117969 0.154120663632029 


4.03754766081788e-06 


2000 ETS (A,N,N) 0.157413125646824 0.154124700770241 


0.00328842487658335 


U0l EIS(A:N.N}y 0.162942355969924 0.157412792166205 


U. O002Z905038U3 11911 


2002 ETS (A,N,N) 0.160986044554207 0.1629417952144106 


-Us WLYon ONGoU209 


2003 ETS (A,N,N) 0.148233847629868 0.1609862428877406 


Se WA hs Da 


2004 ETS (A,N,N) 0.147400008880004 GLa45503951L04021768 


-DLL 2 1331 


2005 ETS(AN,N}) 0.152321126236533 0.147400123991157 


0.00492700224539561 


2006 ETS (A, N,N) 0.146459794092561 加 


-0.00586683249451758 


2007 ETS(A,N,N) 0.14339666192983 0.1464603890506306 


= QU0003727L208002506 


2008 ETS (A,N,N) 0.145513631588618 4362 .1202Z3751 


0.00211665896486724 


UUY ETS (A, N,N) 0.139109023459534 0.145513416937297 


-0.00640439347776356 


2010 ETS (A,N,N) 0.134795323545856 SO 


-0.00431434938604935 


2 ULL ETS (A, N,N) 0.130889234985064 B34 0106n932 


-D00002Z0U0B0000 72 


2U12 ETS (A,N,N) 0.136204104247743 Oe L30899631L147599 


0.00531447310014455 


我 们 也 可 以 使 用 View 以 矩阵 形式 显示 若干 个 预测 对 象 : 


Vliew (forecast (fit)) 


8.32 ”用 苞 信 市 来 绘制 未 来 的 值 


我 们 使 用 plot 消 数 绘制 出 对 未 来 的 预测 值 。 请 注意 ， 最 后 一 个 值 的 预测 包含 水 平 预 测 线 周围 的 上 下 置信 区 | 间 。 但 为 什么 是 一 


个 水 平 的 预测 线 ? 这 就 是 说 ， 指 数 模型 没 


到 ， 基 于 置信 区 间 的 预测 有 很 大 的 变化 。 


有 趋势 或 季节 性 ， 最 好 的 预测 是 基于 平滑 后 的 平均 值 的 最 后 一 个 值 。 但 是 ， 我 们 可 以 看 
随 看 预测 时 间 周 期 的 增加 ， 置 信 审 也 会 随 之 增加 ， 以 反映 与 预测 相 天 的 不 确定 性 : 


0 01352036 | 01267958 01456113 01218156| 0150505 
2017 | 0.1362036 | 0.1213290 




















plot (forecast (fit)) 


Forecasts from ETS(A,N,N) 





8.33 ”修改 模型 以 包 合 趋势 组 件 


在 早 些 时候 ， 我 们 为 数据 添加 了 一 条 线性 趋势 线 。 如 果 想 把 线性 趋势 也 纳入 到 预测 中 ， 那 么 可 以 把 第 二 个 参数 指定 为 A ( 趋 
势 参数 ) ， 从 而 得 到 一 个 “AAN” 模 型 (Holt 的 线性 趋势 ) 。 这 种 类 型 的 方法 允许 指数 平滑 市 有 趋势 : 


fit <—- ets(x, model = "AAN") 
summary (fit) 
> ETS (A,A,N) 


Call: 
ets(y = x, model = "AAN") 


Smoothing parameters: 
alpha = 0.0312 
beta = 0.0312 


Initial states: 
= ou 
b -0.0021 


sigma: 0.0042 


AIC AICC BIC 
4 


Training set error measures: 

ME RMSE MAE MPE MAPE 

Training set -0.000290753 0.004157744 0.003574276 -0.2632899 2.40212 
MASE ACEF1I 

Training set 0.7709083 0.05003007 


VV VV VVVVVVVYVVVVYVVVVvVYVvV VV 


绘制 预测 结果 如 下 图 所 示 : 


plot (forecast (fit)) 


Forecasts from ETS(A,A,N) 





8.34 ”对 所 有 类 别 迭 代 运 行 ets 沙 数 


我 们 已 经 在 一 个 类 别 上 运行 了 一 个 ets 模 型 ， 现 在 可 以 构建 一 些 代 码 来 自动 构建 所 有 类 别 的 模型 。 
在 这 个 过 程 中 ， 我 们 也 会 保存 一 些 准确 度 度 量 ， 以 便 看 到 模型 是 如 何 执行 的 : 

1) 首先 按 类 别 对 数据 帧 进行 排序 ， 然 后 按 年 份 排序 。 

2) 接着 ,初始 化 一 个 新 的 数据 帧 (onestep.df) ， 用 它 来 存储 测试 和 训练 数据 的 每 个 移动 窗口 预测 的 精度 结果 。 
3) 然后 ， 作 为 一 个 循环 的 迭代 ， 处 理 每 个 有 14 个 时 间 段 组 的 数据 。 
4) 对 于 每 次 迭代 ， 提 取 测 试 和 训练 数据 帧 。 

5) 为 训练 数据 集 拟 合 一 个 简单 的 指数 平滑 模型 。 

6) 应 用 适合 测试 数据 集 的 模型 。 

7) 应 用 accuracy 函 数 以 提取 验证 统计 。 


8) 将 所 得 的 每 一 个 数据 存储 在 上 一 步 中 初始 化 的 onestep.df 获 - 据 帧 中 : 


df <— x2 %>% arrange (cat, Year.1) 


# ereaeate resultes data trame 


onestep.df <- data.frame (cat = character(), rmse = numeric(), mae = 
numeric(), 

mape = numeric(), acf1 = numeric(), stringsAsFactors = FALSE) 

# 

于 


library (forecast) 

lterations <— 0 

for (i lin seq(from = 1, to = 999, by = 14)) { 

1 

# pull out the next category. It will always be 14 records. 

4d <— ditliSIs | 

x < 一 ts(x4$5Not.Covered.Pct, start = c(1999), end = c(2012), fregquency = 1) 


# assign the first 10 records to the training data, and the next 4 to the 
# test data. 


trainingdata <- window (x, start = c(1999), end = c(2008)) 
testdata <- window (x, start = c(2009), end = c(2012)) 
par (mfrow = c(2, 2)) 


# first fit the training data, then the test data. 
# Use simple exponentijial smoothing 

fit <- ets(trainingdata, model = "ANN") 

# summary (fit) 

fit2 <- ets(testdata, model = fit) 

onestep <- fitted (fit2) 


ijterations <- iterations + 1 
onestep.df[iterations, 1] <- paste (x4$cat[1]) 


onestep.df[iterations, 2] <- accuracy (onestep, testdata) [, 2] #RMSE 
onestep.df[iterations, 3] <- accuracy (onestep, testdata) [, 3] #MAE 
onestep.df[iterations, 4] <- accuracy (onestep, testdata) [, 5] #MAPE 
onestep.df[iterations, 5] <- accuracy (onestep, testdata) [, 7] #ACF1 
if (iterations == 24) 

break 


} 


从 for 循 环 中 提取 一 个 类 别 ， 并 查看 其 中 的 一 些 行 。 查 看 最 后 一 个 处 理 组 比较 容易 ， 因 为 循环 中 创建 的 中 间 对 象 仍然 完好 无 
损 地 保留 着 。 


首先 让 我 们 看 看 原始 组 中 的 当前 数据 : 


talil (x4) 


这 个 命令 可 以 显示 最 后 一 组 UNDER 18 YEARS 的 部 分 输出 。 注 意 ; 要 查看 所 有 年 份 ， 你 需要 在 控制 台 上 运行 命令 
tall (x4, 14) : 


Source: local data frame [6 x 9 


cat Avg.Total.Insured Avg.People Year Year.l 
(EoEeE)y ABlLy (OBL} EC Cnt} 

1 UNDER 18 YEARS 66200.46 73752.5 2007 2007 

2 UNDER 18 YEARS 66200.46 73752.5 2008 2008 

3 UNDER 18 YEARS 66200 .46 73152.5 2009 2009 

4 UNDER 18 YEARS 66200.46 73752.5 2010 (10) 2010 

D UNDER 18 YEARS 66200.46 73752.5 2011 2011 

GB UNDER 18 YEARS GUOUU do T3192 ZU ZUl2 

Variables not shown: Total.People (dbl), Total (dbl), Not.Covered (dbl), 
Not .Covered.Pct (dbl) 


V V V V V V V V V V VV 


8.35 ”onestep 生 成 的 精度 指标 


for 循 环 生成 的 onestep.df 对 象 包含 所 有 组 的 所 有 精度 指标 。 观 察 一 下 前 6 行 ， 你 可 以 看 到 捕获 的 每 个 类 别 的 精度 指标 


rmse、mae 和 mape: 


head (onestep.df) 


> cat rmse mae mape acf1 
> 1 18 to 24 YEARS 局 ez 
> 2 25 to 34 YEARS 上 GOG 上 和 LLpoLle LULoUoSgd 
> 3 35 to 44 YEARS QAOUGa4Lo49 QU UU FV0LoS ZZ231800 .9999409 
> 4 45 to S34 YEARS DO 
> 5 55 to 64 YEARS .0Uuosleu2l2 0.00498858592 3.534093 VQ,7818765 
> 6 65 YEARS AND OVER 0.00248 /451 0.002096323 12.156815 0.99999317 


cbind (fits$x, fits$sfitted, fit$residuals) 
> Time Serles : 

> Start = 1999 

> End = 2008 

> Frequency = 1 

> fitSsx fitsfitted fitS$residuals 
> 1999 0.11954420 0.1056241 0.0139200744 
> 2000 QIU0T25759 O01056255 和 UL 
> 2001 0.10649619 0.1056257 0.0008705016 


US DUO 
人 
> 2004 0.09942592 0.1056253 -0.0061994140 
> 2005 0.10320781 0.1036247 -0.00241693001 
> OU Qllz2z31138 Ul0D6245 QUDG0869135 
= OO WVU Taby UlQo6Z2o0lL Qs0002A40D206 
“ZOUn QUdoIaTod Volo =UsULUS4YG 


mean (fitS$residuals,) 
> [1] -6.056125e-07 


现在 我 们 查看 测试 数据 集 的 UNDER 18 YEARS 类 别 的 残 差 。 在 2011 年 ， 残 差 似乎 有 所 变化 ， 但 绝对 值 仍 然 是 较 小 的 。 


absresid <- abs (fit2S$residuals) 
plot (absresid) 


二 
6 0.003 
台 
ae 


2009.0 2009.5 2010.0 


2010.3 


2011.0 


时 间 


fit2 是 测试 数据 ， 还 有 从 训练 数据 (fit) 开 妈 的 模型 的 拟 合 值 : 


chind (fit2Sx, fit25fitted, fit2Sresiduals) 

> Time Series: 

> Start = 2009 

> End = 2012 

> Frequency = 1 

> 下 
> 2009 0.09745024 0.09451361 0.0029366252 
2 .2010. .osaz QQ.09451391 QQ.0033393083 
> 2011 0.09397731 0.09451424 -0.0005369347 
> 2012 0.08877369 0.09451419 -0.0057404940 


mean (fit2S$residuals,) 
> [1] -3.738216e-07 


8.36 比较 UNDER 18 YEARS 组 的 测试 和 训 


练 





我 们 也 可 以 查看 这 个 细 分 的 训练 和 测试 组 的 图 形 ， 看 看 是 否 有 什么 有 用 的 信息 : 


par (mfrow = c(1, 2)) 
起 二 OE 主 GLEG)) 
SLOL(tOPenagtttat) 


2011.> 


2012.0 





从 下 面 的 图 可 以 看 出 ， 尽 管 这 个 组 的 未 覆 蘑 百分比 有 所 下 降 ， 但 是 可 能 没有 足够 的 数据 可 以 用 来 辨别 出 趋势 ， 所 以 投影 


定 为 平均 值 。 


做 设 


对 于 测试 数据 图 ， 我 们 也 可 以 看 出 为 什么 绝对 残 差 图 从 2010 年 的 峰值 ( 当 “平价 医疗 法 案 " 


颁布 时 ) 过 渡 到 2011 年 的 过 程 
中 下 降 了 xxx， 而 2011 年 之 后 进入 下 降 趋 势 : 


UNDER 18 GROUP (训练 数据 ) UNDER 18 GROUP (测试 数据 ) 





2000 2003 2010 2015 2010 2012 2014 2016 2018 2020 2022 


8.37 ”精度 指标 


使 用 残 差 ， 我们 可 以 根据 三 种 使 用 广泛 的 精度 指标 来 测量 预测 和 实际 值 的 误 磊 : 
平均 绝对 误差 (MAE) : 该 度量 采用 所 有 误差 ( 残 差 ) 的 绝对 值 的 均值 。 


均 方 根 误差 (RMSE) : 均 方 根 误差 通过 首先 取 所 有 误差 平方 的 均值 ， 然 后 取 均 值 的 平方 根来 测量 误差 ， 以 便 恢复 到 原始 
尺度 。 这 是 测量 误差 的 标准 统计 方法 。 


MAE 和 RMSE 都 是 依赖 于 尺度 的 度量 指标 ， 这 意味 着 它们 可 以 用 来 比较 具有 相似 尺度 的 问题 。 当 比较 不 同 尺度 的 模型 之 间 的 
准确 性 时 ， 应 该 使 用 其 他 与 尺度 无 关 的 量度 ， 如 MAPE.。 


平均 百分比 误差 (MAPE) : 这 是 当前 值 和 预测 值 之 间 的 绝对 差 值 ， 相 对 于 当前 值 的 百分比 。 它 直观 易 慌 ， 是 一 个 非常 受 
欢迎 的 指标 : 


wy = 10 A,—F, 


lL =1 A 


[ 


其 中 ，At 是 实际 值 ，Ft 是 预测 值 。 


我 们 可 以 根据 MAPE 列 来 简单 地 对 onestep.df 对 象 进行 排序 ， 从 而 查看 哪个 模型 的 性 能 最 大 (使 用 例如 MAPE 这 样 的 指 


标 ) : 


onestep.df %>% arrange(., desc (mape)) %>% head () 
> Gat rmse mae mape 和 
> 1 MALE 65 YEARS AND OVER 0.002647903 0.002226841 17.440671 0.5781697 


MALE 35 to 44 YEARS 0.039044319 0.024111701 14.218445 0.9999903 
65 YEARS AND OVER QUD2A48 T7451 Yd UU2096323 2.1450815 Ue 9999931 
MALE 25 to 34 YEARS DUZ4L.95057 QL990L1147 Be T48294 Uy999310 
MALE 4 to S54 YEARS DQGL lL DOO030868L 3000565 WU» 999990U 
FEMALE 25 to 64 YEARS 0.006749771 0.005610275 4.021224 0.5038707 


V V Vv VvV VYV 
ON Un 心 ND 


在 一 个 图 中 同时 绘制 出 所 有 的 MAPE 指 标 ， 结 果 显 示 ， 指 数 模 型 对 于 年 轻 群 体 的 预测 效果 更 好 ， 对 于 年 长 的 群体 ， 特 别 是 对 
于 男性 来 讽 ， 效 果 似乎 有 所 下 降 : 


lattice::barchart (cat ~ mape, data = onestep.df) 





8.38 ”参考 贷 村 


http://www.census.gov/data/tables/time-series/demo/health-insurance/historic 
al-series/hib.html 


8.39 ”本 章 小 绪 


本 草 通 过 读 取 和 探索 CMS 网 站 的 医疗 注册 数据 ， 介 绍 了 时 间 序 列 分 析 。 然 后 ， 我 们 开始 定义 一 些 基本 的 时 间 序 列 概念 ， 例 
如 人 简单 和 指数 移动 平均 线 。 最 后 ， 我 们 使 用 R 语 言 的 forecast 软 件 包 与 一 些 指数 平滑 状态 空间 模型 一 起 工作 ， 展 示 了 一 种 为 数据 
生成 自动 预测 的 万 法 。 我 们 还 展示 了 几 种 使 用 ggplot、lattice 包 以 及 原生 R 硬 言 图 形 的 绘图 方法 。 


第 9 草 Spark 


“数据 ! 数据 ! 数据 ! 巧 妇 难 为 无 米 之 炊 ! ” 





Sir Atthut Conan Dovyle 

目前 为 止 ， 我们 已 经 学 习 了 如 何在 所 谓 的 “小 数据 ”上 面 进行 分 析 。 然 而 ， 随 着 数据 的 数量 增加 ， 忆 体 尺寸 越 来 越 大 ， 因 而 
就 有 了 进一步 的 问题 : 如 何在 不 断 增长 的 大 量 数据 上 进行 分 析 ? 在 这 种 情况 下 ， 我 们 就 要 开始 探索 “大 数据 ”， 开 发 新 的 解决 方 
案 ， 有 时 候 还 会 引入 新 的 工具 。 

在 某 种 程度 上 ， 并 没有 什么 真 的 改变 。 你 仍旧 想 要 高 质量 的 数据 。 你 还 是 想 要 检查 数据 间 的 关系 ， 还 要 把 问题 投射 到 某 个 预 
测 分 析 框 架 中 。 

改变 的 仅仅 是 达到 这 些 目标 所 采取 的 步 又， 请 时 刻 考虑 到 数据 管理 的 难度 变 大 了 ， 所 以 需要 一 些 新 的 工具 来 帮忙 。 

最 近 这 些 年 出 现 的 工具 ， 其 中 一 种 叫 作 Apache Spark。 


在 本 章 中 ， 我 们 会 介绍 一 些 有 关于 Spark 的 基本 知识 。 首 先 我 们 还 是 从 一 个 小 型 数据 集 入 手 ， 进 行 一 些 数 据 清 洗 ， 然 后 把 这 
个 小 型 数据 集 转 换 成 大 得 多 的 数据 集 ， 以 便 在 Apache Spark 环 境 中 处 理 它 。 我 们 还 会 学 习 如 何 调整 那些 已 经 熟悉 的 工具 ， 以 便 
与 Spark 协 同 工 作 ， 同 时 还 会 学 习 一 些 新 的 工具 。 


9.1 天 于 Spark 


在 写作 本 书 的 时 候 ，Spark 可 能 是 最 预测 分 析 领 域 用 于 超大 数据 集 最 受 欢 J 迎 的 染 构 。Spark 是 一 种 分 布 式 染 构 ， 可 以 帮助 你 
管理 大 量 的 数据 ， 并 使 分 析 变 得 容易 些 。Spark 是 在 Hadoop 之 上 构建 的 ， 所 以 它们 的 文件 系统 是 一 样 的 。 


不 过 ，Spark 并 不 是 基于 MapReduce 样 式 ， 它 使 用 的 是 弹性 分 布 式 数 据 集 (resilient distributed dataset，RDD) 结构 ， 
这 是 为 了 实现 内 存 中 分 析 ， 并 管理 涉及 环境 中 所 有 节 扣 的 并 行 处 理 聚 类 。 对 分 析 师 来 咬 ， 这 就 意味 着 查询 操作 的 速度 非常 快 ， 
为 数据 是 从 内 存 中 取得 的 ， 这 比 访问 硬盘 的 速度 要 快 很 多 。 访 问 速 度 快意 味 着 你 可 以 有 更 多 时 间 用 于 分 析 ， 而 花费 更 少 的 时 间 来 


4 乞 / 士 /十 
等 待 结果 。 


以 下 是 Spark 的 一 些 优势 : 


Spatk 克 服 了 内 存 中 分 析 的 一 些 限制 ， 因 为 它 可 以 管理 内 存 ， 并 优化 了 数据 访问 和 查询 。 


:Sparkk 有 自己 的 机 器 学 习 库 ， 叫 作 MLlib， 它 实现 了 一 些 流 行 的 预测 分 析 建 模 技 术 ， 并 针对 大 型 数据 集 算 法 优化 了 计算 速 


浮 


Spatk 现 在 包含 了 数据 帧 的 概念 ， 这 样 就 使 分 析 师 用 有 R 或 者 Python 进行 分 析 的 时 候 更 为 允 用 。 


Spark 利 用 了 Hadoop 的 宛 余 和 容错 的 优势 。 如 果菜 一 个 节点 因 故 失效 了 ， 另 外 一 个 节点 可 以 代替 它 ， 这 样 分 析 过 程 并 不 会 
失败 。 当 在 生产 环境 中 工作 时 ， 这 一 点 是 非常 重要 的 。 


Spatk 还 支持 一 些 其 他 的 编程 语言 ， 比 如 Java 和 Scala。 在 一 个 分 析 流水 线 中 可 以 混合 使 用 多 种 编程 语言 ， 多 个 分 析 师 可 以 分 
享 同一 批 数据 。 这 样 有 利于 提高 团队 协作 能 力 和 工作 效率 。 


9.2 _ Spark 环境 


Spark 可 以 在 以 下 三 种 模式 下 工作 : 


YARIN 


* MESOS 


对 于 初始 部 署 (和 初学 者 ) ， 最 好 从 独立 模式 开始 ， 这 种 模式 使 用 Spark 独 享 的 聚 类 。 而 且 ， 你 可 以 在 本 地 模式 (你 目 己 的 
计算 机 ) 上 面 运行 独立 模式 ， 也 可 以 使 用 云 计算 服务 (比如 亚 马 还 的 AWS) 。 


9.2.1 聚 类 计算 


聚 类 计算 能 力 使 得 Spark 可 以 同时 在 很 多 计算 机 上 处 理 并 分 布 数 据 。 聚 类 管理 组 件 根据 用 户 的 需求 申请 聚 类 需要 的 资源 。 


Spark 的 一 个 重要 的 方面 惑 是 ， 它 把 尽 可 能 多 的 数据 保管 在 内 存 中 ， 以 便于 数据 能 够 尽 可 能 快 地 供应 给 各 种 各 样 的 分 析 ， 这 样 融 
不 用 在 每 次 指定 了 得 询 或 者 模型 乙 后 ， 还 得 等 待 数据 从 硬盘 上 读 取 出 来 。 


Spark 数 据 保存 在 RDD 中 ， 可 以 把 不 同 种 类 的 对 象 分 散在 聚 类 中 。 


9.3 SparkR 


spark 本 身 是 用 一 种 叫 作 Scala 的 编程 语言 写 的 ， 运 行 在 Java 环 境 中 。 不 过 ， 你 可 以 使 用 的 编程 语言 不 仪 限于 Scala。spark 
有 一 些 接 口 ， 通 过 不 同 的 API 提 供给 用 户 ， 这 样 用户 束 可 以 使 用 下 面 这 些 编 程 语 


本 


言 来 编写 程序 : 


- 及 

* Scala 
java 
”Python 
Clojute 


我 们 将 会 在 本 章 使 用 SparkR 来 展示 一 些 示 例 。SparkR 是 一 个 R 包 ， 它 是 从 R 程 序 使 用 Apache Spark 的 前 凯 。 使 用 SparkR， 
你 可 以 在 聚 类 上 执行 从 数据 科学 到 交互 式 运 行 任务 等 操作 。 使 用 SparkR 的 一 个 突出 的 优点 是 ， 对 于 传统 的 R 程 序 员 ， 在 SparkR 
里 面 可 以 使 用 他 们 已 经 非常 熟悉 的 一 些 技术 ， 比 如 数据 帧 的 概念 。 


数据 帧 


Spark RDD 可 能 使 用 起 来 有 点 困难 ， 所 以 在 最 近 的 Spark 版 本 中 ， 在 RDD 的 基础 上 建立 了 数据 帧 摘要 ， 这 样 分 析 师 束 可 以 用 
他 们 以 前 惯用 的 方法 来 查看 数据 ， 例 如 ， 用 表格 和 列表 的 形式 查看 。 这 样 就 使 得 很 多 高 级 语言 (例如 R 和 Python) 可 以 使 用 熟悉 
的 语法 ， 并 整合 优化 过 的 代码 ， 这 样 束 能 够 和 Scala 或 者 Spark SQL 平 分 秋色 了 。 


Databricks 是 Apache Spark 的 创始 人 建立 的 公司 ， 它 提供 在 使 用 R、Java、Scala 或 Python 的 云 计算 中 运行 Spark 程 序 的 免 
费 环境 。 


我 将 使 用 Databricks 的 环境 来 前 述 运行 本 章 示 例 所 需 的 代码 。 这 些 示例 使 用 了 Data-bricks 笔 记 本 的 概念 。Databricks 笔 记 
本 和 Jupyter 或 者 Zeppelin 的 笔记 本 相似 。 你 可 以 用 笔记 本 在 同一 个 地 方 显示 代码 和 结果 。 


Databricks 笔 记 本 还 可 以 在 一 个 笔记 本 里 混合 不 同 的 编程 语言 ， 例 如 可 以 使 用 R、Python 和 SQL 代码 合 起 来 编写 一 个 分 析 程 
序 。 


下 面 是 开始 时 的 工作 : 

1) 在 databricks.com 上 注册 一 个 免费 的 Databricks 账 己 。 
2) 导入 本 章 使 用 的 笔记 本 。 

3) 司 动 一 个 聚 类 。 


4) 开始 后 面 的 工作 ! 


9.4 ”构建 第 一 个 Spark 数 据 帧 


使 用 Spark 工 作 的 一 个 难点 是 ， 在 非常 巨大 的 数据 集 上 工作 时 找到 分 析 解 决 方案 。 作 为 准备 步骤 ， 在 本 章 中 ， 我 们 将 要 构建 
一 个 非常 大 的 Spark 数 据 帧 。 


还 需要 注意 的 是 ，“ 大 数据 帧 ”这 个 概念 显然 也 是 相对 的 。 因 为 免费 的 DataBricks 环 境 会 限制 所 创建 的 数据 帧 的 大 小 ， 我 们 
最 终 只 能 构建 一 个 100 万 行 的 数据 帧 ， 每 行 包含 11 个 变量 。 


我 还 要 演示 一 下 如 何 基 于 R 来 构建 一 个 相似 的 数据 帧 ， 以 便于 你 可 以 进行 自己 的 测试 ， 并 且 能 够 判断 利用 Spark 来 进行 分 析 
可 以 获得 多 少 性 能 上 的 优势 。 


仿真 


我 们 要 通过 仿真 来 构建 这 个 Spark 数 据 帧 。 这 件 事 会 占据 本 章 的 很 大 一 部 分 。 我 完 得 ， 比 起 导入 外 部 共用 数据 集 ， 动 手 目 己 
构建 是 个 更 好 的 做 法 ， 这 样 你 束 可 以 控制 数据 的 构成 。 使 用 仿真 数据 集 ， 你 可 以 自由 地 设置 想 要 的 大 小 (在 你 的 账 尸 允许 的 汽 围 
内 ) 。 


不 过 ， 你 还 是 可 以 目 由 地 导入 你 想 要 用 的 任意 数据 集 ， 而 下 面 这 些 分 析 概 念 都 是 一 样 的 。 
1) 最 开始 ， 你 还 是 需要 注册 并 且 登 录 你 的 Databricks 账 户 。 
2) 接着 ， 创 建 一 个 聚 类 。 给 它 取 个 名 字 ， 例 如 MyCluster。 


3) 为 了 和 本 章 的 示例 保持 一 致 ， 请 确保 你 使 用 ?park 2.1。 这 一 点 非 党 重要。 因为 Spark 是 Apache 的 开源 产品 ， 它 的 功能 
一 和 直 在 演变 ， 所 以 我 们 希望 确保 你 能 够 重用 你 的 代码 。 


4) 选择 Create Cluster。 
5) 创建 聚 类 需要 一 些 时 间 。 当 创建 完成 之 后 ， 你 会 看 到 状态 变 成 了 Running， 如 下 面 的 屏幕 截图 所 示 : 


Create Cluster 
New 9 Werkers 0 G8 Memory. 0 Cores 0 DBU 个 
New Cluster Cencel | Gromto Chrstoe | 1 Oriver: 6 G8 Memory, 0 88 Cores, 1 DOU © 
Notebook et 


MyChust 


| Job Apeche Spark Vorson © 
Spork 20 (Aso-updsting, Scoeln 2 10) 


sh Cluster 人 matence 


Free 6G8 Memory As 8 Commnunity EGWO@ US6f YOUFE chustort we eutomosec alty Iomminato Sher an Mio period of wo hours. 
团 Table For rmore confoutabon optons, peese upOredo your DatabrKks subscripton 


Library AWS | Spark 


Avaiabilty Zone © 
US-west-2C 


Clusters 


Active Clusters 十 Create Clustel 


Name Memory Type State Nodes Spark 
@ MyClust 6GB Community Optimized Running *» 1On-demand Spark 
Spark 2.0 (Auto-updating, Scala 2.10) UI 
Logs 





9.5 导入 相同 的 笔记 本 


运行 本 章 示 例 最 好 的 方法 是 从 外 部 网 站 导入 笔记 本 。 下 面 是 做 法 : 


1) 点 击 Workspace。 


2) 石 击 Training&Tutorials (或 者 类 似 的 文件 夹 ) 并 选择 Import。 
3) 把 从 友 布 者 网 站 下 载 的 文件 拖 搜 到 拖 放 区 域 ， 并 点 击 Import。 


参见 下 面 的 屏幕 截图 : 


veey [| Import Notebooks 


? Documenlation t[| Impotfrom: © Fie O URL 
人 Release Notes 


Tenimé Tota l Drop fie here to upload or dickto select 


© Shal Veate | 
Accepted formats' .dbc, .SCala .py, .Sql .f, .ipynb, .html 
(To mport a lbrary Such as a jar of e909, Click here) 


Cancel le 





导入 了 笔记 本 之 后 ， 所 有 的 代码 和 输出 都 可 以 显示 了 ， 你 就 可 以 继续 进行 下 面 的 代码 示例 。 


笔记 本 格式 
Databricks 笔 记 本 在 上 方 的 面板 中 显示 所 写 的 代码 ， 在 下 方 的 面板 中 显示 输出 ， 正 如 下 面 这 个 “宝石 ”数据 的 教学 代码 的 例 


子 所 未: 
为 了 运行 面板 中 现在 显示 的 代码 ， 只 需要 点 击 右 上 角 的 三 角形 图 标 : 
.当代 码 运 行 完毕 时 ， 你 就 可 以 在 代码 下 方 看 到 输出 。 该 输出 可 能 是 一 个 图 形 或 者 控制 台 输 出 。 记 得 一 定 要 检查 错误 消息 和 


警告 ， 尤 其 是 当 输 出 和 你 预期 的 不 一 样 的 时 候 。 
清 况 下 ， 不 会 产生 任何 的 输出 。 那 可 能 也 是 对 的 ， 但 请 确保 检查 输出 窗口 的 时 间 稚 ， 看 看 你 的 代码 


> uv 一 X 
> %r 


diamonds <- read.df(sqlContext, "/databricks-datasets/Rdatasets/data-88l/csv/ggplot2/diamonds.csyv", source = "csv", header="true", inferSchema = 
"true") 


display (diamonds) 


三 
H 
H 
J 

D 
D 
二 
G 





9.6 创建 一 个 新 的 笔记 本 


除了 导入 一 个 笔记 本 之 外 ， 你 还 可 以 选择 从 Databricks 的 主屏 幕 创建 一 个 笔记 本 ， 然 后 把 本 章 的 示例 代码 复制 粘贴 到 笔记 本 
的 窗口 中 。 当 你 想 用 本 章 的 代码 来 做 模板 ， 然 后 在 此 基础 上 添加 目 己 的 新 代码 时 ， 你 残 可 以 这 样 操作 。 


你 可 以 使 用 键盘 上 的 快捷 键 组 合 <Ctrl+Alt+N> 来 创建 一 个 新 的 笔记 本 。 


9.7 ”从 小 开始 区 


在 本 章 我 们 用 来 构建 数据 集 的 策略 是 ， 先 获取 一 个 现存 的 小 型 公开 使 用 数据 集 ( 皮 马 印第安 人 糖尿 病 数 据 集 ) 。 然 后 我 们 先 
做 一 些 基本 的 探索 性 分 析 ， 计 算 一 些 关键 的 统计 属性 ， 然 后 使 用 这 些 属性 来 仿真 一 个 大 很 多 的 数据 集 ， 作 为 进行 Spark 分 析 时 的 
和 输入。 我 们 用 来 生成 这 个 “大 数据 ”的 一 些 天 键 的 特质 将 会 是 : 


: 各 个 变量 的 均值 /标准 差 : 我 们 的 目标 是 生成 的 大 数据 集 的 均值 和 方差 约 等 于 小 数据 集 的 均值 和 方差 。 


- 变量 之 间 的 相关 性 : 由 于 统计 学 建 模 和 分 析 很 大 程度 上 是 基于 变量 之 间 的 关系 ， 我 们 仿真 的 目标 是 在 大 数据 集中 保留 小 数 
据 集 中 存在 的 所 有 双向 关联 数 


. 各 个 变量 的 底层 分 布 : 我 们 假设 所 有 的 变量 都 是 服从 正 态 分 布 的 ， 除 了 那些 结果 变量 (糖尿 病人 与 非 糖 尿 病 人 的 比值 ) 。 
过 ， 我 们 将 要 模拟 那些 结果 变量 ， 以 便 和 抽样 数据 集 所 反映 的 比例 保持 一 致 。 


皮 马 印第安 人 糖尿 病 数 据 集 


为 了 构建 这 个 Spark 数 据 帧 的 性 质 ， 我 们 首先 要 用 一 个 小 数据 集 决定 这 个 新 数据 集 的 基本 统计 属性 ， 然 后 基于 这 些 属 性 构建 
一 个 Spark 数 据 帧 。 


皮 马 印第安 人 糖尿 病 数 据 集 具有 以 下 这 些 属性 : 


` 怀孕 月 份 数 


.一 次 口服 葡萄 糖 耐量 试验 中 2 小 时 候 的 血浆 葡萄 糖 浓 度 
-舒张 压 (mm Hg) 

` 三 头 肌 皮 裙 厚度 (mm) 

` 2 小 时 血清 胰岛 素 (mu U/ml) 

- 身体 质量 系数 (体重 (kg) /身高 (m) “2) 

-糖尿病 冢 族 作用 

年 龄 ( 岁 ) 

“ 发 展 为 糖尿 病 (是 或 否 ) 


该 数据 是 一 个 公开 使 用 的 数据 集 。 事 实 上 ， 该 数据 集 有 好 几 个 可 以 使 用 的 版 本 。 我 们 要 使 用 的 是 包含 在 mlbench 包 中 的 数 
据 集 ， 要 把 它 加 载 到 R 的 工作 空间 里 面 。 


9.8 运行 代码 
在 加 载 了 笔记 本 之 后 ， 会 看 到 一 系列 的 代码 “ 块 ”。 这 个 特别 的 笔记 本 是 一 个 R 类 型 的 笔记 本 ， 也 融 是 这 ， 所 有 的 代码 行 都 
默认 是 R 命 令 、SparkR 命 令 或 者 特殊 的 Databricks 命 令 (例如 display) 。 


随后 我 们 会 看 到 不 同 的 窗口 显示 SQL 命 令 (如 果 笔 记 本 开头 有 %sql) 、 混 杂 的 Python (%Python) 或 者 scala 代 码 


(%scala) 。 


为 了 运行 任何 特定 的 代码 块 的 内 容 ， 你 可 以 使 用 下 面 的 键盘 快捷 键 组 合 : 





或 者 ， 你 也 可 以 使 用 运行 图 标 (左边 的 三 角形 图 标 ) : 





既然 我 们 已 经 知道 了 如 何 运行 单个 代码 块 ， 融 要 开始 运行 初始 化 代码 ， 简 单 地 测试 Databricks 系 统 ， 看 看 它 是 否 可 以 使 用 ， 


并 设置 一 些 选 项 。 


9.9 ”运行 急 始 化 代码 


切 始 化 代码 仅仅 是 设置 了 一 些 选项 ， 后 面 会 用 到 ， 而 且 没 有 什么 输出 。 我 们 将 会 输出 “Hello World” 来 确保 它 运行 了 。 


options (digits=3) 

options (repr.plot.width = 1000, repr.plot.height = S500, repr.plot.res = 
144, repr.plot.pointsize = D) 

rep_times=1000 

cat ("Hello World") 


输出 窗口 打印 了 Hello World， 并 且 还 显示 了 运行 花费 的 时 | 间 、 用 户 名 、 日 期 和 时 间 ， 以 及 在 哪个 聚 类 上 运行 。 请 密切 注意 
每 一 个 代码 块 运行 花费 的 时 间 。 以 后 如 果 想 建立 代码 性 能 评测 ， 这 是 很 有 用 的 。 


Hello World 


Command took 6.99 seconds -- by r wintersat 2/27/2917, 6:20:39 PM on MyCluster 





9.10 ”解压 缩 皮 号 印 达 安 人 糖尿 病 数 据 集 


运行 下 面 的 代码 ， 名 为 PimalndiansDiabetes 的 R 数 据 帧 就 加 载 进 来 了 ， 然 后 运行 常规 的 str () 和 summary () 函数 。 请 
注意 ， 我 们 需要 先 安装 mlbench 包 ， 以 便 能 取得 这 个 包 里 面 的 数据 。 


到 目前 为 止 ， 还 没有 使 用 过 Spark 的 指令 。 尽 管 我 们 是 在 一 个 Databricks 环 境 中 运行 ， 代 码 却 是 纯粹 的 R， 而 你 也 可 以 把 这 
些 代码 复制 到 你 的 单 规 R 环 境 中 去 用 。 


# load the library 
devtools::install_ github ("cran/mlbench") 
library (mlbench) 

data (PimaIndiansDiabetes,) 
str(PimalIndiansDiabetes,) 

summary (PimaIndiansDiabetes) 


9.10.1 “” 检 否 输出 


和 往 剃 一样 ，str () 和 summary () 函数 可 以 让 你 对 数据 有 个 急 步 的 认识 。 在 控制 全 面板 上 将 会 显示 和 输出， 一 般 都 是 在 代 
码 窗 口 的 下 方 。 


请 注意 : 并 不 是 所 有 的 输出 都 显示 了 。 
str () 函数 的 输出 


str () 为数 告诉 我 们 ， 一 共有 768 个 观察 和 9 个 变量 。 所 有 的 变量 都 是 以 数值 形式 加 载 ， 除 了 目标 变量 diabetes， 在 代码 中 
它 是 一 个 因子 ， 有 两 个 级 别 : 


. neg 表示 没有 得 糖尿 病 的 情况 
.pos 表示 得 了 糖尿 病 的 情况 


再 次 强调 ，str () 是 一 个 很 好 的 快速 获得 数据 情况 的 方法 。 记 得 一 定 要 看 一 看 前 面 几 行 的 0 值 和 NA， 问 问 上 自己 ， 这 尝 是 人 否 


符合 你 的 预期 。 


参见 下 图 : 


data. Trame 
pregnant: num 61810531028 ... 
glucose : num 148 85 183 89 137 116 78 115 197 125 ... 
pressure: num 72 66 64 66 46 /4 3950 (9 96 ... 
triceps : num 35 29 0 23 35 966326645 9 ... 


insulin : num ©0808 94 168 96 88 6 543 9 ... 

mass -本 
pedigree: num ©.627 6.351 6.672 6.167 2.288 ... 

age -0 

diabetes: Factor w/ 2 levels "neg","pos": 2121212122.. 





summary () 函数 的 输出 
summary () 函数 统计 了 diabetes 变 量 的 计数 。 在 768 个 观察 中 ， 有 500 个 是 无 糖尿 病 的 观察 ，268 个 有 糖尿 病 的 观察 。 


请 注意 ，summary 的 输出 没有 探测 到 缺失 值 ;， 然 而 ， 如 果 你 观察 得 再 仔细 一 点 ， 可 以 看 到 ， 有 些 变 量 (glucose、 
pressure、insulin 和 mass) 应 该 都 是 有 数值 的 ， 但 却 有 和 零 值 的 存在 。 而 怀孕 月 份 数 如 果 是 零 则 是 可 以 接受 的 。 


在 进行 一 些 绘图 之 后 我 们 再 设法 对 付 这 些 零 值 : 


pregnant glucose pressure triceps 
Min. : @. Min. : 9.96 Min. : 9.99 Nin. 
lst Qu.: 1. lst Qu.: 99.8 lst Qu.: 62.80 lst Qu. : 
Median Median :117.96 Median : 72.66 Nedian 
Mean Mean : 1126.9 Mean 11 Mean 
3rd Qu. 3rd Qu . :1469.2 3rd Qu.: 89.669 3rd Qu 
Max . is Max. : 199.8 Max 。 : 122 .9699 Max 。 


insulin mass pedigree age diabetes 
Min. 06.0 Min. : 9.99 Min. :8.0789 Min. :21.80 neg:566 
lst Qu. .0 gt atl. I lst Qu. :24.699 pos:268 
Median : 30.5 Median :32.99 Median :6.3725 Median :29.80 
Mean 19.8 Mean LL Mean :0.4719 Mean seh3o 2 
3rd Qu.:127.2 3rd Qu.:36.60 3rd Qu . :9 .6262 3rd Qu . :41.699 
Max. :846.0 Max. :67 .19 Max. :2.4280 Max . :81.80 





9.10.3 ”检查 缺失 值 


从 前 面 的 忌 结 中 我 们 可 以 看 出 ， 疫 有 显示 缺失 值 的 存在 ; 然而 ,我 们 也 看 到 有 相当 多 的 变量 数据 是 零 ， 而 这 些 零 值 并 不 合 
理 。 例 如 ， 读 取 血 压 的 时 候 是 不 可 能 得 到 一 个 零 值 的 ， 不 过 怀孕 的 月 份 数 是 零 则 可 以 理解 。 所 以 我 们 假设 大 多 数 变量 中 的 零 值 其 
实 表 示 NA， 根 据 这 个 假设 ， 再 为 数据 做 相应 的 映射 : 


` 首先 ， 把 数据 拷贝 到 一 个 新 的 数据 帧 ，; 
然后， 把 代码 中 列 出 来 的 5 个 变量 的 零 值 都 转换 成 NA: 


# we see that there are 0's which are really NA's 

#some O's are really NA's, we will change them in Spark 
# keep pregnant = 0 

Pijmalndians <- PimalndiansDiabetes 


PimaIndianss$sglucosel[lPimaIndianss$glucose ==0] <- NA 
PimaIndianss$spressure[PimalIndiansspressure ==0] <-— NA 
PimaIndiansstriceps[PimaIndiansstriceps ==0] <- NA 
PimaIndianssinsulin[lPimaIndianssinsulin ==0] <- NA 
PimaIndianssmass[PimaIndianssmass ==0] <- NA 


summary (PimalIndians,) 


再 运行 一 次 Summary 了 为 数 ， 确 保 所 述 那 些 零 值 都 转换 成 了 缺失 值 (NA) : 


pregnant glucose pressure triceps 


Min. - Min. : 44. Min. -证 Min. a 
lst Qu.: 1 lst Qu.: 99. lst Qu.: 64. Lae: i. S22 
Median 3 Median : Median : 72. Median :29. 
Mean -有 Mean - Mean es Mean a 
3rd Qu.: 6 3rd Qu . : 3rd Qu.: 80. 3rd Qu.:36. 
Max. -人 - Max. We Max . :99. 
NA's 中 NA's 

insulin pedigree age diabetes 
Min. - :2 Min. :0.0780 Min. ds neg:500 
lst Qu.: 76. lst Qu.:0.2437 lst Qu.:24. pos:268 
Median :125. :7 Median :0.3725 Median 
Mean SS. 人 Mean :0.4719 Mean 
3rd Qu.:190. . 3rd Qu.:0.6262 3rd Qu . : 
Max. :846. 二 了 Max. :2.4200 Max. 
NA's :374 





9.10.4 和 输入 缺失 全 
我 们 现在 要 使 用 一 个 简单 的 均值 蔡 换 法 。 不 过 ， 并 不 是 仅仅 用 变量 的 均值 来 蔡 换 变量 中 所 有 的 NA， 而 是 基于 下 面 的 四 个 分 
组 ， 用 每 组 成 员 的 均值 来 蔡 换 NA: 
. Diabetes=pos/ 年 龄 较 小 的 范围 
”Diabetes=neg/ 年龄 较 小 的 范围 
. Diabetes=pos/ 年 龄 较 大 的 范 轩 
Diabetes 二 neg/ 年 龄 较 大 的 范围 
我 们 已 经 有 了 一 个 基于 Diabetes=pos/neg 的 分 类 ， 那 么 如 何 根据 年 龄 的 大 小 来 分 类 呢 ? 


我 们 要 使 用 目 动 计算 的 截断 点 来 分 类 。 为 了 找 出 截断 点 ， 人 在 Age 变 量 上 使 用 cut 阔 数 把 它 分 成 两 个 级 别 。 然 后 根据 年 龄 的 分 
组 ， 分 别 使 用 dplyr 来 计算 5 个 变量 的 均值 。 
1) 首先 ， 让 我 们 看 看 这 四 个 组 里 分 别 都 得 到 了 多 少 个 观察 : 
library (dplyr) 
PimaIndianss$sagegrp <- as.numeric(cut (PimaIndianss$sage, breaks=2)) 


PimalIndians %>% 
group_by (diabetes,agegrp) %>% count ( ) 


2) 输出 显示 了 创建 的 四 个 分 组 ， 以 及 它们 的 计数 情况 : 


Source: local data frame [4 x 3 
Groups: diabetes [2?] 


diabetes agegrp n 
] Neg 1 460 
2 neg py 40 
3 pos ] he 
4 pos 2 : 


3) 接着 ， 对 每 个 分 组 进行 均值 蔡 换 法 。 


4) 请 注意 ， 只 有 NA 值 被 著 换 了 。 如 果 数 值 不 是 NA， 我 们 会 保留 原来 的 数值 。 这 一 点 总 是 需要 注意 的 。 通 弟 你 并 不 想 把 那 
些 可 以 接受 的 数据 都 蔡 换 挥 ! 
library (dplyr) 


df <—- Pimalndians $%>% 
group_by (diabetes,agegrp) %>% 


mutate ( 
insulin.imp = mean (insulin,na.rm=TRUE), 
glucose.imp = mean (glucose,na.rm=TRUE), 
pressure.imp = mean (pressure,na.rm=TRUE), 
triceps.imp = mean (triceps,na.rm=TRUE), 
mass.1imp = mean (mass,na.rm=TRUE) 


) 
dfolinsulin <= Tfelsel1s Td dfSsinesulLin);: dtSolnsulin in dfol1nsulLin) 
dfsglucose <- ifelse(is.na(dfs$glucose), df$5glucose.imp, dfS$5glucose) 
dfSspressure <- ifelse(is.na(dfs$pressure), dfs$pressure.imp, 
df$Spressure) 
dfstriceps <- ifelse(is.na(ldfs$triceps), df$triceps.imp, dfS$triceps) 
df$smass <- ifelse(is.na(df$mass), dfS$mass.imp, dfs$mass,) 


9.10.5 ”检查 著 换 值 (读者 练习 ) 


在 替换 了 NA 之 后 ， 输 出 结果 数据 帧 ， 并 比较 赋予 的 数值 和 蔡 换 的 数值 。 这 个 检查 是 为 了 确保 替换 工作 顺利 进行 ， 而 且 奉 换 
结果 是 合理 的 。 一 定 要 检查 那些 蔡 换 后 的 极 值 ， 因 为 这 可 能 表示 有 些 不 对 劲 的 地 万 。 


print.data.frame (head (df[,c!( 
TIL "Teli LN. 
"LooOse™ "LUCoSe, LIM, 
"pressure", "pressure.1imp", 
WE 
"maser.. "mage limo yy] ss 10)3 


mass mass.1mp 


33.8 
26.6 
23.3 
28.1 
43.1 
25.6 
31.09 
35.3 
390.5 
33.8 


35.7 
31.96 
35.7 
31.96 
35.7 
31.98 
35.7 
31.9 
33.08 
33.8 


141 
169 
141 
169 
141 
169 


169 
153 
153 


72.0 
生生 .日 
人 4 .日 
66.09 
40.8 
74 .日 
5 昌 . 昌 
76 .4 
7170.9 
936 . 昌 


74.4 
76.4 
74.4 
76.4 
74.4 
76.4 
74.4 
76.4 
81.4 
81.4 


nsulin nsulin.imp glucose ELucoSe .1mp pressure pressure.mp trmceps 
148 
385 


35.08 
23 .日 
32.8 
23 ,日 
35.08 
27.2 
32.0 
27.2 
二 ,日 
34.3 





9.10.6 ”缺失 全 处理 完 成 


如 果 著 换 正 确 无 误 ， 你 对 结果 很 满意 ， 那 么 : 

` 把 临时 数据 帧 赋 给 皮 马 印第安 人 数据 帧 

` 对 每 一 行 的 NA 进行 计数 

head 遂 数 的 输出 显示 已 经 没有 NA 值 趣 在 了 。 如 果 某 一 行 还 有 NA， 那 么 这 一 行 会 被 输出 : 


Pimalndians <— df 
head (PimalIndians [rowSums (ijs.na (PimalIndians)) > 0, |]) 


SOUrCe: 
Groups: 


local data frame [日 X 15] 
diabetes, agegrp [8] 


“un With 15 variables: pregnant , Elucose , pressure ， 
triceps ， insulin ， mass ,， pedigree , age ， 
diabetes , agegrp ， insulin.imp ， Elucose.imp ， 
pressure.imp ,， triceps.1mp ， mass.1mp 


9.10.7 


计算 相关 性 炬 阵 





现在 ,我 们 要 计算 相关 性 和 协 方 舌 和夫 阵 。 这 样 我 们 对 预测 变量 之 间 的 相互 联系 会 有 一 个 概念 。 随 后 ， 我 们 还 要 使 用 这 些 信息 


来 构建 大 数据 集 : 


# calculate correlation matrix and exclude NA's 
correlationMatrix <—- cor(PimaIndians[,1:8]) 


CovarlianceMatrix <- stats::cov(PimaIndians[,1:8]) 


# summarize the correlation matrix 
Drint (correlationMatrix,. dLGLES=3) 


协 万 闫 和 粉 阵 是 根据 项 端 和 左 侧 指 定 的 那些 变量 生成 的 n xn 表格 。 想 要 查看 任意 一 个 变量 和 其 他 所 有 变量 之 间 的 相关 性 ， 残 在 


表格 中 查找 该 变量 所 在 的 列 ， 


Correlation Matnx 
pregnant 
1.00800880 
090.12813455 
0.21417848 
triceps 98.189823987 
6 
8 


glucose 
.1281346 
.86660666 
.2231918 
.2286432 
.5811862 
.2327765 
.1372457 -6. 
54434123 8.2671356 6， 
pedigree age 
633522673 6.54434123 
137245741 6.26713555 
6992864527 6.336016743 
triceps ”6.115616426 6.16681577 
insulin ”6.136395672 6.22626668 
Ba55 .155381746 6.92584146 
pedigree 1.6966696666 6.93356131 
0.033561312 1.6966066666 


pregnant 
gLucose 
pressure 


,988217163 
.02171892 
03352267 


insulin 
0355 

pedigree -9. 
age 9， 


pregnant -9. 


glucose 9., 
pressure -89. 


age 


pressure 


.214178483 
.223191778 
.86066066666 
.226839667 
.098272299 
.289236346 


686962864527 
336167425 


triceps 


,1992391 6， 
,2286432 9， 
.2268391 6. 
,66096666 0. 
,848884 1 ， 
.6482139 6. 
"11596164 6 
.1668158 6， 


insulin M3ss 
68217163 6.62171892 
58118621 6.23277651 
69827236 6.28923634 
18488842 6.64821394 
66966696 6.22865916 
22865616 1.6689660666 
13639567 6.15538175 
22926668 98.902584146 


Covanance Matnx 
pregnant glucose 
pregnant 11.354605632 13.947131 9.2145382 
13.94713666 1022.248314 94.4389556 
9.21453818 ”94.436956 374.6472712 
triceps -4.39884161 29.239183 64.9293962 
insulin ~28,.55523874 1226.935799 198.3784122 
M355 0.46977418 SS.726987 43.9646951 
pedigree -8.083742597 1.454875 8.2646376 
21.57861977 99.682885 54.5234528 
mass pedigree age 
pregnant 8.4697742 -8.83742597 21.5766198 
glucose 55.7269867 1,45487481 99,.6828654 
pressure 43.0046951 08.26463757 54.5234528 
triceps 49.3738694 8.97213555 -21.3816232 
insulin 179.7751721 7.66668651 -57.1432963 
62.1599846 8.36748469 ”3.3663299 
8.3674647 8.18977864 8.1387717 
3.,3683299 8,13877169 138,3838459 


pressure 


glucose 
pressure 


age 


Mas5s5 


pedigree 
age 


triceps 
-4.3908410 
29.2391827 
64.6293962 
254.4732453 
802.9799488 
49.3738694 
8.9721355 
-21.3818232 





从 上 至 下 ， 在 该 变量 和 其 他 变量 所 在 的 行 相 交 的 地 方 的 数字 。 下 面 所 示 是 计算 得 到 的 协 方差 矩阵 : 


insulin 
"28.555231 
1226.935799 
198.378412 
862.979941】 
13281.1860078 
179.775172 
7.666681 
57.143296 


当 变 量 的 数目 较 少 时 ， 很 容易 扫 摘 这 个 算 阵 ， 从 而 获取 重要 的 相关 性 数据 。 但 是 当 变 量 数 目 很 多 的 时 候 ， 更 为 合理 的 做 法 是 
使 用 代码 来 完成 这 个 任务 ， 获 取 那 些 相 关 性 >0.5 的 数据 : 


df <—- as.data.frame (as.table (correlationMatrix)) 
subset (df, abs(Freq) > 0.5 & abs (Freqgq) <1) 


我 们 可 以 看 人 到， 在 其 中 一 些 变量 之 间 存 在 着 很 高 的 相关 性 一 一 年 龄 、 怀 孕 月 份 数 、 胰 岛 素 ， 以 及 糖 耐 级 别 之 间 有 最 高 的 相 
天 水 平 : 


> Subset (df, abs(Freq) > 0.5 & abs (Freq) <1) 


Varl Var2 Freq 
8 age pregnant 0.5443412 
13 insulin glucose 0.5811862 
30 mass triceps 0.6482139 
34 glucose insulin 0.5811862 
44 七 ICePs mass 0.6482139 


你 也 可 以 使 用 几 种 不 同 的 方法 来 绘制 这 些 变量 之 间 的 散 点 图 。 


使 用 pairs () 函数 可 以 仅仅 基于 R 来 实现 这 一 点 : 


Palrs (PimaIndians[c(1,2,4,5,6,8)],pch=21) 





9.10.8 ”计算 各 列 的 均值 


在 后 面 的 仿真 部 分 中 ,我们 还 需要 把 列 均值 放 进 一 个 向 量 ， 所 以 现在 计算 各 列 的 均值 ， 并 用 一 个 水 平 柱状 图 来 显示 。 先 计算 
糖尿 病 阳性 的 组 的 各 列 均值 ， 然 后 计算 糖尿 病 阴 性 的 组 的 各 列 均值 。 最 后 计算 总 的 列 均值 ， 尽 管 在 后 面 的 部 分 我 们 不 会 使 用 它 : 


means.pos = colMeans (PijmaIndians [PimaIndians3qliabetes 
=='PpPOS',1:8],na.rm=TRUE) 

means.neg = colMeans (PijmaIndians [PimalIndianssdiabetes 
=='Nneg',1l1:8],na.rm=TRUE) 

means.all = colMeans (PimalIndians[,l1:8],na.rm=TRUE) 

barplot (means.all[c(1,2,3,4,5,6,7,8)],cex.axls=.75,cCcex.names=.70,horiz=TRUE 
; Space=0) 


下 面 的 柱状 图 显示 了 计算 得 到 的 均值 ， 仪 供 参考 。 我 们 不 比较 它们 ， 因 为 它们 的 幅度 大 小 都 是 不 一 致 的 。 


age 


pedieree 





insulin 


triceps 


pressure 


glucose 


pregnant 





9.11 ”仿真 数据 


一 旦 我 们 计算 了 所 有 人 列 的 均值 和 协 方 差 矩阵 ， 融 准备 好 了 仿真 一 个 大 型 数据 集 ， 可 以 指定 任意 的 观察 数量 。 


9.11.1 使 用 哪些 相关 性 
对 于 协 方差 矩阵 ， 我 们 既 可 以 使 用 根据 两 个 糖尿 病 结果 (1，0) 各 自 单独 计算 的 矩阵 ， 也 可 以 使 用 完整 的 协 方差 矩阵 ， 其 
中 的 变量 间 相关 性 计算 不 考虑 糖尿 病 结果 是 什么 。 


我 们 将 使 用 每 个 结果 各 上 自 单 独 计算 的 相关 性 或 协 方差 矩 孟 ， 因 为 每 个 结果 都 有 足够 多 的 观察 数量 (n=500 和 n=268) 。 如 
果 这 两 个 分 类 中 有 一 个 相对 于 另 一 个 来 况 要 小 得 多 ， 那 么 我 们 融 要 使 用 完整 的 (或 者 咏 和 的 ) 协 方 差 矩 哇 ， 因 为 这 样 可 以 利用 更 
多 数量 的 观察 。 


下 面 是 代码 中 需要 注意 的 一 些 地 方 : 


“ 提醒 一 下 ， 一 定 要 在 仿真 开始 的 时 候 指 定 一 个 随机 数 种 子 。 这 样 能 确保 你 在 每 一 次 重新 运行 这 段 代 码 的 时 候 都 能 得 到 相同 
的 结果 。 


.cof () 函数 会 计算 所 有 变量 之 间 的 相关 性 矩阵 ， 而 cov () 函数 计算 协 方差 矩阵 。 相 关 性 答 阵 和 协 方差 矩阵 之 间 主 要 的 区 
别 在 于 ， 协 方差 矩阵 使 用 与 变量 相同 的 单位 来 表达 ， 而 相关 性 是 把 数值 标准 化 为 0~1 之 间 的 值 。 不 过 ， 它 们 本 质 上 测量 的 是 同样 
的 东西 。 


. hbins 变 量 会 把 数据 分 箱 ， 每 箱 有 400 个 观察 。 这 样 就 抽取 到 较 小 的 数据 样本 ， 比 起 在 整个 数据 集 行 分 析 要 容易 得 多 。 
这 又 一 次 说 明 ， 抽 样 真是 一 个 很 有 用 的 做 法 。 


- 用 mvrnorm 吻 数 生成 这 个 数据 集 ， 该 函数 的 输入 是 ( 列 1~8 的 ) 均值 和 刚刚 我 们 生成 的 协 方差 矩阵 。 请 注意 : 如 果 需 要 改 
函数 的 详细 信息 ， 你 可 以 在 这 个 笔记 本 的 任何 地 方 加 入 下 面 的 这 个 命令 ， 它 会 使 用 R 的 帮助 系统 : 


help (mvrnorm, package="MASS") 。 


. 为 了 增加 数据 帧 的 大 小 ， 我 们 先生 成 具有 nl 个 观察 的 数据 帧 ， 然 后 根据 指定 的 次 数 tep_time 来 重复 生成 这 个 数据 帧 。 如 果 
你 感觉 仿真 消耗 的 时 间 太 长 了 ， 可 以 减少 fep_time 这 个 变量 的 值 ， 这 样 仿真 完成 就 会 快 得 多 。 


. 最 后 ， 我 们 需要 看 一 下 data.ffame 和 ac.DataFrame 这 两 个 函数 的 区 别 : 
data.frame 是 一 个 普通 的 R 了 池 数 ， 在 这 个 函数 里 ， 根 据 输入 参数 来 创建 一 个 数据 帧 。 
ac.DataFrame 是 一 个 SparkR 朋 数 ， 把 结果 转化 为 一 个 Spatk 数 据 帧 。 


` 如 果 有 疑问 的 话 ， 在 逊 数 名 前 面 加 上 base: : 或 者 SpatkR: : 就 可 以 指定 从 哪个 包 里 面 获 取 函 数 。 否 则 你 可 能 会 看 到 一 个 
警告 或 者 错误 信息 ， 而 且 很 难 调 试 。 


最 后 一 行 代码 使 用 ntow () 函数 输出 Spatk 数 据 帧 的 行 


运行 下 面 的 代码 块 : 


#generate spark dataframe 
set .seed (123) 

ni1=268 

n2=500 

#data loaded into spark 


#use separate correlation matrix for now. May want to use 1 pooled matrix. 


correlationMatrix <- cor(lPimaIndians [PimaIndianss$sdiabetes =='pos',1:8]) 


CovarianceMatrix <- stats::cov(PimaIndians [PimaIndianss$sdiabetes 
| ' 
=='PpPoOos"',1:8]) 


require (MASS) 

nbinsi=base: :round (n1/400,0) 

out sdl1 <- as.DataFrame (data.frame (data.frame ( 

sample.bin=base::sample (1:nbinsil,ni,replace=TRUE)* (+1) ， 

outcome=1, 

mvrnorm(ni, mu = means.pos, Sigma = matrix(covarianceMatrix, ncol = 8), 
empirical = TRUE) 

) ) [rep(i1i:n1, times=2000), 1]) 


nrow (out_sd1) 


(1)Spark Jobs 
Loading reqgquired package: MASS 
Attaching package: 'MASS' 


The following object is masked from ‘package:SparkR': 
select 


[1] S536000 


Command took 2.88 minutes -- by r_winters at 2/13/2017, 3:15:24 PM on My 
Cluster 


9.11.2 检 宜 对 象 类 型 


和 数据 类 型 。 不 过 ， 这 个 冰 数 不 会 显示 行 的 数目 : 


SparkDataFrame '": 196 variables: 


$ 
$ 
$ 
$ 
$ 
$ 
$ 
$ 
$ 
$ 


sample_bin: num 78 212 119 237 253 13 
outcome : num 1 11111 


pregnant : num 1.94252931814449 4.36423863864429 8.858675776495492 1.85534568833345 9.171606466696666927 1.1186379328449 
glucose : num 157.123189654394 148.94334796996497 172.8427352697286 167 .366227123967 165 .392689867468 188.881198462925 


pressure : num 61.59298796983116 71.695673901627 74.4269535626688 74.3844944342854 78.13559325367691 61.8843444282885 


triceps : num 15.6917644295514 41.5591691664547 36.9192322177519 34.9364879662772 33.9635759583851 28.1923168753192 
insulin : num 129 .597911349131 246 .9296316991656 379.471775333615 86.1971329956682 -67.8238532621351 181.6823116652 


mass : num 29.4491765315476 24.953572101178 32.8462944694615 42.34693328136571 35.6341563357795 42.52092651318631 





pedigree : num 1.222639361569258 6.3135695916869247 96.4453289627648939 96.52963571867743 696.3855691592136751 96.25126511645 
: num 25 .83413295733698 19 .438369695827238 46.39930949981371 16.6689622362294 26.553696896692654 26.15128361834063 


9.12 ”仿真 糖尿 病 阴 性 结果 的 情 ) 


我 们 刚才 仿真 的 是 阳性 结果 的 情况 。 现 在 着 手 来 用 类 似 的 代码 去 仿真 没有 患 糖 尿 病 的 病人 的 数据 (outcome=0) 。 


对 于 阴性 结果 的 情况 ， 我 们 还 是 会 把 sample.bin 乘 以 -1， 这 样 在 以 后 我 们 会 知道 所 有 的 正 数 sample.bin 实 例 都 是 天 于 阳性 
结果 的 情况 ， 而 所 有 负数 的 sample.bin 示 例 是 关于 阴性 结果 的 情况 : 


Set .SeeQ (123) 


nbins2=base: :round (n2/400,0) 
correlationMatrix <- cor(lPimaIndians[PimaIndianssdiabetes =='neg',1:8]) 


CovarianceMatrix <- stats::cov (PimaIndians [PijmaIndianss$sdiabetes 
=='Nneg',1:8]) 


out_sd2 <- as.DataFrame (data.frame (data.frame ( 
sample.bin=base: :sample (1:nbins2,n2,replace=TRUE)*(-1), 

outcome=0, 

mvrnorm(n2, mu = means.neg, Sigma = matrix(covarianceMatrix, ncol = 8), 
empirical = TRUE) 

) ) [rep (1:n2, times=2000), |]) 


nrow (out sd2) 


输出 显示 创建 了 500 000 行 数据 。 请 注意 ， 输 出 也 显示 为 了 完成 这 项 工作 ， 运 行 过 两 个 Spark 任 务 。 如 果 想 看 更 多 信息 ， 你 
也 可 以 点 击 输出 左边 那个 小 三 角形 来 显示 那些 Spark 任 务 的 细节 信息 (而 且 里 面 并 不 含有 结果 输出 ) 。 





把 阳性 和 阴性 结果 的 情况 连接 到 同一 个 Spark 数 据 帧 


现在 我 们 有 两 个 单独 的 Spark 数 据 帧 ， 分 别 是 关于 糖尿 病 阳性 结果 和 阴性 结果 的 情况 。 对 有 些 类 型 的 分 析 ， 可 以 把 这 两 种 结 
果 的 数据 分 别处 理 ; 不 过 为 了 演示 ， 我 们 要 用 unionAll () 函数 把 它们 合并 到 同一 个 数据 帧 里 面 。 


out sd <—- unionAll (out sdi, out sd2) 
nrow (out sd) 


nrow 的 输出 显示 ， 总 共有 768 000 行 数据 。 这 个 数字 代表 了 我 们 把 原来 的 768 行 数据 乘 以 了 一 个 因子 1000: 





9.13 ”运行 泡 总 统计 


创建 完 一 个 数据 对 象 之 后 ， 我 要 做 的 第 一 件 事 就 是 运行 汇总 统计 。 在 R 的 汇总 函数 里 面 有 一 个 专门 用 于 Spark 的 函数 叫 作 
describe () 。 你 可 以 使 用 指定 的 尔 数 summary () ; 不 过 ， 如 果 你 不 使 用 describe () 的 话 ， 我 建议 你 在 前 面 加 上 
SparkR: : ,以便 指定 你 使 用 的 summary 遂 数 是 哪 一 个 版 本 的 : 


head (SparkR: :summary (out_sd)),) 


这 行 代码 的 输出 与 在 一 个 基本 R 数 据 帧 上 运行 Summary 立 数 的 输出 有 一 点 不 一 样 ， 但 是 其 中 也 包含 了 你 需要 的 那些 度量 信 


息 ，count、mean、stddev、min 和 max: 


» (1) Spark Jobs 


summary 
count 
mean 
stddev 
min 

max 


121.68778671732643 
30.441771824780293 

39.06326135657574 
219.71433564781285 


32.442846279285206 
6.874557449376662 
9.969765765918051 
54.28623709953233 


我 们 还 可 以 比较 此 处 的 Summary 输 出 和 对 原始 皮 马 印第安 人 数据 帧 运行 summary 的 输出 。 可 以 看 出 ， 仿 真 的 时 候 对 于 估计 


sample_bin 
768600 


-500.0 
267.0 


glucose 
768000 


mass 
68000 


pressure 
768600 


72.40477794289117 
12.996909390416991 
35 .406547247096748 
112.13158466413895 


pedigree 
768000 


0Q.4718763020832466 
OQ.33111303159767445 
-0.2461478239664021 
1.687677997656607 


outcome 
768660 


pregnant 
768066 


-113.67317708333333 ©.3489583333333333 3.845652083332693 
220.73245849349478 6.47664107119156484 3.3673858047181646 


.0 -5.267836632739748 
1.0 13.798168411407868 


29.24877913964472 
8.923478186809195 
OQ.7607894364323116 
38.237335346004559 


triceps 
768666 


age 
768660 


33.24088541667883 
ll1.7525802974162175 
-1.469171542253246 

73.95268273579866 


insulin 
7680860 


159.46377333976378 

91 .29942746927545 
-148 .15344457408253 
456 .099906846139917 





均值 做 得 非 芝 到 位 。 尽 管 观察 的 数量 差不多 是 原始 数据 的 1000 倍 ， 而 糖尿 病 患 病 者 的 数量 相对 于 非 患 病 者 的 数量 的 比例 仍旧 没 


有 变 : 


#compare with original dataset 
summary (PimalIndiansDiabetesl[,|]) 


pregnant 

©.00 
1.09 
3.00 
3.85 
6.00 
:17.00 


Min. - 
lst Qu.: 
Median : 
Mean - 
3rd Qu . : 
Max. 
mass 
Min. - 


Median 
Mean 


MaX 。 


.9 
i 
下 
:32.0 
3rd Qu. :36.6 
A | 


glucose 


Min. 


Median 
Mean 
3rd Qu. 
Max. 


pedigree 
:08.078 
lst Qu. :96.244 


Min. 


Median 
Mean 


MaX 。 


at UUs: 


A 
A 由 yp 
3rd Qu. :6.626 
:2.420 


pressure 


Nin. 
lst Qu. 
Median 
Mean 


.0 
62.0 
12.0 
69.1 


3rd Qu.: 80.0 


MaxXx. 


:122.0 


age 


Min. 


:21.0 


lst QU.:24.0 


Median 


Mean 


29 .0 
:$33.2 


3rd Qu. :41.9 


MaX 。 


:81.0 


triceps 

Min. : 0.0 
lst Qu.: 6.9 
Median :23.0 
Mean :了 
3rd Qu. :32.0 
299 .9 
diabetes 
neg:560 

pos :268 


MaXx . 


insulin 
Min. 
lst QU.: 
Median 
Mean 
3rd Qu . 
Max. 





9.14 保 仓 你 的 工作 


现在 既然 我 们 已 经 生成 了 最 终 的 Spark 数 据 帧 ， 融 可 以 把 它 写 入 硬盘 。 然 后 ， 从 下 一 章 开 始 ， 我 们 融 要 把 这 个 数据 帧 读 回 到 
工作 空间 里 ， 不 再 从 头 开始 创建 这 些 数据 了 。 如 果 你 现在 直接 看 下 一 章 ， 你 可 以 跳 过 下 面 这 几 个 步骤 不 看 : 


:我们 将 以 Parquet 文 件 格式 来 保存 ， 这 个 格式 对 于 Spatk 和 SQL 的 效率 很 高 。 用 %fs (文件 系统 ) 指令 ， 你 可 以 利用 操作 系统 
的 ls 命令 来 发 布 一 个 目录 (或 者 文件 列表 ) 命令 。 


.一旦 文件 保存 完成 ， 你 可 以 验证 一 下 文件 的 完整 性 ， 把 文件 读 取 回来 ， 并 且 赋 值 给 out_ st 数据 帧 〈 再 一 次 ) 。 
. 使 用 head 命 令 来 验证 数据 已 经 读 取 成 功 : 


saveAsParquetFile(out sd, "/tmp/temp.pargquet") 


fs ls 
out_sd <- parquetFile(sqlContext, "/tmp/temp.pargquet") 


head (out sd) 


9.15 ”本 童 小 结 


在 本 草 里 ,我们 学 习 了 Spark 及 其 一 些 优势 。 我 们 着 手 编写 了 一 个 程序 ， 用 来 加 载 数据 到 Spark 聚 类 并 保存 数据 。 我 们 学 习 
了 几 种 万 法 ， 基 于 小 型 数据 集 的 性 质 来 建造 我 们 目 己 的 非常 大 的 Spark 数 据 帧 。 


我 们 还 学 习 了 如 何在 Databricks 中 编写 Spark 程 序 ， 如 何 运行 标准 R 分 析 ， 安 六 R 的 包 。 我 们 还 加 强 了 关于 缺失 值 的 替换 法 ， 
替换 了 原始 数据 里 面 的 一 些 缺 失 值 。 


在 下 一 章 里 ,我 们 要 使 用 自己 已 经 构建 的 数据 ， 并 开始 探索 数据 。 


第 10 草 ”用 Spark 探 过 大 型 数据 集 


我 从 来 不 揣测 。 在 看 到 数据 之 前 就 得 出 理论 是 大 错 特 错 。 人 们 会 不 知 不 党 中 扭曲 事实 来 使 之 符合 理论 ， 而 不 是 修改 理论 来 


使 之 符合 事实 。 





Sir Atthut Conan Dovyle 
在 这 一 章 里 ， 我 们 会 对 在 前 一 草 里 创建 的 Spark 数 据 帧 做 一 些 探索 性 的 数据 分 析 。 我 们 要 学 习 一 些 可 以 帮助 你 完成 分 析 的 特 
定 的 Spark 命 令 ， 还 要 讨论 几 种 绘制 图 形 和 曲线 的 方法 。 


在 你 跟着 这 些 示例 学 习 的 时 候 ， 请 记得 在 Spark 里 面 的 数据 可 能 比 你 以 往常 见 的 数据 量 要 大 得 多 ， 如 果 不 先 仔 细 考 虑 数据 的 
组 织 形式 ， 以 及 使 用 标准 技术 的 性 能 会 受 怎样 的 影响 ， 那 么 在 你 想 要 应 用 一 些 快速 分 析 技 术 的 时 候 ， 会 友 现 那 是 不 现实 的 。 


你 会 知道 在 开始 本 章 的 分 析 之 前 必须 先 加 载 你 保存 的 Spark 数 据 帧 。 我 们 
肖 数 把 数据 读 取 到 内 存 中 。 然 后 ， 过 滤 出 


如 果 你 回忆 一 下 在 上 一 章 结束 的 时 候 做 了 些 什么 ， 
是 用 Parquet 文 件 的 格式 来 保存 糖尿 病 数 据 集 的 ， 所 以 我 们 可 以 使 用 parquetFile () 
那些 糖尿 病 阳 性 结果 的 数据 ， 因 为 我 们 接 下 来 要 探索 它 : 


" /tmpy/temp .Parduet" ) 


out_sd <- pargquetFile(sgqlContext, 
out_sd1 = SparkR: :filterl(out_sd,out._sd$outcome 


10.1 ”对 阳性 数据 进行 一 些 探 索性 分 析 


在 我 们 动手 探索 整个 Spark 数 据 帧 之 前 ， 可 以 看 一 些 已 经 为 阳性 结果 的 情况 生成 的 数据 。 正 如 你 可 能 回忆 起 的 前 一 草 内 容 ， 
这 些 数据 存储 在 Spark 数 据 帧 out_sd1 中 。 


我 们 已 经 生成 了 一 些 随 机 抽样 箱 ， 以 便 做 一 些 探索 性 分 析 。 


可 以 使 用 filter 命 令 来 解压 缩 样本 ， 然 后 提取 前 1000 个 记录 : 


:filtet 是 一 个 SpatkR 命 令 ， 使 用 它 你 可 以 得 到 一 个 Spatk 数 据 帧 的 子 集 。 


“ display 命 令 是 一 个 Databricks 命 令 ， 等 同 于 我 们 前 面 使 用 过 的 View 命 令 ， 你 也 可 以 使 用 head 孙 数 限 制 显示 的 行 数 。 


这 个 代码 块 提 取 了 阳性 数据 的 1000 个 记录 并 显示 这 些 数据 : 


small pos <-— 
head (SparkR: :filter(out_ sdil,out_ sdi$ssample bin==1), 
nrow (small_pos) 


1000) 


display (small_pos) 


ne 


1 
1 
1 
1 
1 
1 
1 
1 
< 


1 
1 
1 
1 
1 
1 
1 


filter 命 令 


. 提取 你 感 


1.9425203181444948 
4.364238638644292 
0.8586757764954918 
1.8553456883334518 
9.171004000660266 
1.1186379328449942 
8.672233113021786 
1.355354117344758 


令 具 有 以 下 两 种 功能 


157.12318965439363 
148.94334709049747 
172.84273520728647 
107.36622712390702 
105.3026898674677 
188.8811984629251 
164.2287887179305 
178.2908822016013 


兴趣 的 片段 以 便 分 析 。 


61.502987908311624 
71.69507301027002 
74.4269535626088 
74.38449443428541 
78.13559325367008 
61.88434442828847 
84.0882697816601 
72.3494346416019 


` 提取 一 个 样品 ， 有 助 于 调试 Spatk 数 据 流 。 这 可 以 使 顺序 进 
当 样 本 可 以 反映 群体 的 构成 时 。 


15.69176442055139 
41.559169106454675 
30.01923221775189 
34.93648796627722 
33.00357595838513 
28.192310875319244 
44.73740185899723 
39.42986139107221 


129.59701134913144 
240.02963109165603 
379.4717753330152 
86.19713299566824 
-67.82385326213512 
181.6823110652721 
274.25193938156804 
220.90102545544485 


\ 
了 


29.440176531547564 
24.953572101178047 
32.84629440461502 
42.34033281365713 
35.63415633577948 
42.52026513180305 
45.17631260018764 
42.05657900532857 


数据 以 表格 的 形式 展示 ， 你 可 以 用 深 动 条 来 上 下 、 左 石 滚动 ， 查 找 缺失 值 、 极 值 等 。 


快 些 ， 如 免 不 必 要 地 


1.2226303615025842 
0.3135095016802468 
0.4453280276489386 
0.5296357180774305 
0.38550159213075064 
0.25120511045165556 
1.0823652507625146 
0.8795166268527069 


25.8341329573 
19.438309582T7. 
46.3093049981 
16.6689622302 
26.5530890692 
26.1512830183 
37.2574560647. 


35.7895617585 ~ 





运行 很 大 的 工作 ， 尤 其 是 


10.1.1 显示 Spark 数 据 帧 的 内 容 


有 好 几 种 途径 可 以 显示 Spark 数 据 帧 的 子 集 。 下 面 是 你 可 以 选 的 一 些 方法 : 

showDF: 这 是 一 个 Spatk 命 令 ， 以 摘要 的 形式 显示 数据 帧 的 内 容 。 

head: 这 是 一 个 普通 的 有 R 函 数 ， 可 以 用 来 显示 Spatk 数 据 帧 ; 其 语法 和 基本 有 R 的 语法 是 一 样 的 。 
` take: 这 个 命令 也 可 以 输出 一 些 行 ， 但 它 是 从 底层 RDD 得 到 这 些 行 的 数据 的 。 


.display: 这 是 一 个 特殊 的 Databticks 人 命令， 大致 上 等 同 于 基本 R 里 面 的 View 命 令 ， 但 是 也 可 以 用 来 为 输出 的 子 集 绘 制图 形 ， 
在 显示 数据 的 窗口 的 水 平 深 动人 条 下 面 有 一 些 控 制图 标 ， 就 是 用 于 这 个 用 途 。 使 用 display 命 令 ， 还 可 以 切换 到 绘图 模式 。 


10.1.3 ”直接 对 一 个 Spark 数 据 帧 运行 两 两 忆 天 性 计算 


相关 性 和 协 方 兰 函 数 都 可 以 直接 用 来 处 理 Spark 数 据 帧 。 下 面 的 这 个 示例 显示 ， 对 患 有 糖尿 病 的 病人 ， 在 变量 age 和 
glucose 的 级 别 之 | 间 有 11% 的 相关 性 : 


COorr <—- corr(out_ sdil, "glucose", "age", method = "pearson") 
COLrI 





10.2 ”清理 和 缓 仔 内 仔 中 的 表格 


由 于 Spark 表 格 是 处 理 内 存 中 的 数据 ， 首 先 我 们 要 清理 挥 中 间 数 据 ， 然 后 缓存 out_sd 数 据 帧 ， 这 样 可 以 使 串 行 的 查询 运行 得 


入 r 姿 昌 旦 齐 


更 快 。 在 内 存 中 缓存 数 据 ， 当 同样 的 查询 重复 进行 的 时 候 效 率 是 最 高 
便于 你 需要 的 大 部 分 数据 都 能 保留 在 内 存 中 。 


不 过 ， 这 并 不 是 一 种 万 无 一 失 的 做 法 。 恨 好 的 Spark 查 询 和 表格 设计 ， 可 以 有 助 于 优化 ， 而 开 箱 即 用 式 的 缓存 通常 也 会 市 来 
好 处 。 一 般 来 说 ， 最 初 的 几 次 查询 并 不 会 从 内 存 缓存 中 得 到 好 处， 而 后 面 进行 的 查询 就 会 运行 得 快 得 多 。 


既然 我 们 不 再 使 用 前 面 创建 的 中 间 数 据 ， 用 rm 函数 来 删除 它 ， 然 后 在 整个 数据 帧 上 使 用 cache () 销 数 
#cleanup and cache df 
rm(out_sdl) 


rm(out sd2) 


Cache (out sd) 


10.3 “一些 探索 数据 时 有 用 的 Spark 负 数 


~ 


10.3.1 countf0groupby 


我 们 可 以 用 count 和 groupby 函 数 来 聚合 各 自 独 立 的 变量 
下 面 这 个 示例 是 使 用 这 种 方法 来 根据 结果 给 观察 进行 计数 
控制 塔 。 


。 由 于 结果 是 另 一 个 数据 帧 ， 我 们 可 以 使 用 head 函 数 把 结果 写 入 
如 果 你 改变 了 这 个 查询 ， 可 能 不 得 不 调整 head 返 回 的 行 数 。 使 用 诸如 head 这 样 的 函数 来 过 滤 结 有 果 总 是 一 个 好 的 做 法 ， 这 样 可 
以 保证 不 会 输出 好 几 百 行 ( 或 者 更 多 ) 数据 。 


然而 ， 你 还 需要 确保 不 会 把 所 有 的 输出 都 给 砍 掉 了 。 如 果 你 不 是 很 肯定 行 数 有 和 多少 ， 
然后 检查 一 下 行 数 (用 nrow) : 


那么 可 以 务 把 结果 赋值 给 一 个 数据 帧 ， 


立 
DO 


这 一 行 代码 根据 结果 计算 行 数 。 虽 然 知 道 应 该 仪 仪 有 两 个 结果 ， 但 我 在 head 的 语句 中 加 入 了 count 消 数 ， 以 便 防 止 出 现 问 


head (SparkR: :count (groupBy (out_sd, 


"outcome™"))) 


的 。 用 这 种 方法 ，Spark 能 够 知道 怎么 样 I5 妙 使 用 内 存 ， 以 


(3) Spark Jo 


OUTCome coUunt 
© SOOOOO 
] 268Q008 





从 一 个 Spark 数 据 帧 中 输出 数值 的 速度 很 快 。 此 处 有 一 些 从 每 个 结果 分 组 取得 的 数值 。 请 注意 ，sample.bin 是 负 值 ， 代 表 
outcome==0， 而 正 值 代表 outcome==1。 
首先 输出 一 些 负 值 。 我 们 可 以 看 到 有 些 怀孕 月 份 数 也 是 负 值 ， 看 来 仿真 进行 得 也 不 是 那么 完美 。 


head (SparkR: :filter(out_sd,out_sdS$Soutcome == 0),95) 
b (2) Spark Jobs 


sample_bin outcome pregnant glucose pressure triceps insulin 
-144 -1 .48]1 73 .4 66 .6 19.8 104 
es .日 = 195.6 11.8 P| 115 
-205 -日 .376 132 .1 65.9 17 .5 lli 
-442 日 ,有 3 149.1 68.0 1B8.4 164 


-471 3.480 115 .2 38.9 32.2 239 





现在 输出 一 些 正 值 : 


head (SparkR: :filter(out_sd,out_sdsoutcome == 1)，5) 


» (1) Spark JoObs 


sample bin outcome pregnant glucose pressure triceps insulin mass pedigree 
18 1 1.943 157 61.5 Do/ 129.6 29.4 Ltd 
212 4.364 149 re | 41.6 240.0 25.0 .314 
11Q 0.859 113 74 .4 36 .0 号 S28 68.445 
237 有 1687 74 .4 34.9 86.2 42.3 0.530 
253 ‘ye! 165 178.1 33.0 -67.8 35.6 .386 





10.3 “一些 探索 数据 时 有 用 的 Spark 函 数 


10.3.1 countgroupby 


我 们 可 以 用 count 和 groupby 函 数 来 聚合 各 自 独 立 的 变量 。 


下 面 这 个 示例 是 使 用 这 种 方法 来 根据 结果 给 观察 进行 计数 。 由 于 结果 是 另 一 个 数据 帧 ， 我 们 可 以 使 用 head 消 数 把 结果 写 入 


如 果 你 改变 了 这 个 查询 ， 可 能 不 得 不 调整 head 返 回 的 行 数 。 使 用 诸如 head 这 样 的 孙 数 来 过 滤 结 果 总 是 一 个 好 的 做 法 ， 这 样 可 
以 保证 不 会 输出 好 几 百 行 (或 者 更 多 ) 数据 。 


然而 ， 你 还 需要 确保 不 会 把 所 有 的 输出 都 给 砍 掉 了 。 如 果 你 不 是 很 肯定 行 数 有 多 少 ， 那 么 可 以 先 把 结果 赋值 给 一 个 数据 帧 ， 
然后 检查 一 下 行 数 (用 nrow) : 


这 一 行 代 码 根 据 结果 计算 行 数 。 虽 然 知 道 应 该 仅仅 有 两 个 结果 ， 但 我 在 head 的 语句 中 加 入 了 count 消 数 ， 以 便 防 止 出 现 问 


立 
DO 


head (SparkR: :count (groupBy (out_sd, "outcome ") ) ) 


(3) Spark Jo 


OUTCome coUunt 
© SOOOOO 
] 268Q008 





从 一 个 Spark 数 据 帧 中 输出 数值 的 速度 很 快 。 此 处 有 一 些 从 每 个 结果 分 组 取得 的 数值 。 请 注意 ，sample.bin 是 负 值 ， 代 表 
outcome==0， 而 正 值 代表 outcome==1。 
首先 输出 一 些 负 值 。 我 们 可 以 看 到 有 些 怀孕 月 份 数 也 是 负 值 ， 看 来 仿真 进行 得 也 不 是 那么 完美 。 


head (SparkR: :filter(out_sd,out_sdS$Soutcome == 0),95) 
b (2) Spark Jobs 


sample_bin outcome pregnant glucose pressure triceps insulin 
-144 -1 .48]1 73 .4 66 .6 19.8 104 
es .日 = 195.6 11.8 P| 115 
-205 -日 .376 132 .1 65.9 17 .5 lli 
-442 日 ,有 3 149.1 68.0 1B8.4 164 


-471 3.480 115 .2 38.9 32.2 239 





现在 输出 一 些 正 值 : 


head (SparkR: :filter(out_sd,out_sd$outcome == 1)，5) 


» (1) Spark Jobs 


sample bin outcome pregnant glucose pressure triceps insulin mass pedigree 
78 1 1.943 157 61.5 15.7 129.6 29.4 od 
212 4.364 149 re | 41.6 240.0 25.0 90.314 
1169 0.859 173 74.4 30.0 379.5 32.8 0.445 
237 1.855 197 74.4 34.9 86.2 42.3 0.530 
253 .171 165 78.1 33.0 -67.8 35.6 9.386 





10.3.2，” 协 万 差 和 相关 性 闻 效 


相 天 性 和 协 方 郑 也 可 以 直接 从 spark 数 据 帧 计算 出 来 。 在 我 们 的 示例 中 ， 可 以 看 出 在 非 糖 尿 病 患者 的 数据 中 ， 年 龄 和 葡萄 糖 
合 量 之 间 有 很 高 的 相关 性 : 


首先 是 糖尿 病 患 者 。 相 关 性 是 0.113; 


> Forr (SparkR::filter (out_sd ;OUt_sd$outcome==1), "glucose", "age", method = "pearson") 


» (1) Spark Jobs 


[1] 8.113 





下 面 是 非 糖 尿 病 患者 。 相 关 性 是 0.22: 


> corr(SparkR::filter(out_sd,out_sd$outcome==8), "glucose", "age", method = "pearson") 


b (1) Spark Jobs 


[1] 6.22 





对 于 整个 群体 ， 相 天 性 是 0.26: 


> Corr(out_sd, "glucose", "age", method = "pearsonn ) 


={(1)Spark Jobs 
h Job 295 Vew (Stages: 1/1) 


[1] ©@.269 





10.4 ”创建 新 列 


通常 不 需要 基于 现 有 的 变量 来 创建 新 的 变换 以 改善 预测 效果 。 我 们 已 经 看 到 ， 经 常会 把 一 个 定量 的 变量 通过 分 箱 来 变 成 一 个 
名 义 性 的 变量 。 


现在 我 们 来 创建 一 个 新 的 列 ， 取 名 叫 agecat， 它 把 年 龄 分 成 了 两 个 段 。 为 了 简化 ， 我 们 先 把 年 龄 数 四 省 五 入 成 最 接近 的 整 


filtered <- SparkR: :filter(out_sd, "age > 0 AND insulin > 0") 
filteredsage <- round(filteredsage,do) 

filteredsagecat <- ifelse(filteredsage <= 35,"<= 35","35 Or Older") 
SparkR: :head (SparkR: :select (filtered, "age","agecat™")) 





(1) Spark Jo 


age 
26 
19 
46 
17 
26 35 
37 35 Ur ULder 











.== 





在 你 刚才 运行 的 代码 中 ， 你 可 能 已 经 注意 到 有 些 命令 加 了 前 缀 SparkR: : 


这 样 做 是 为 了 让 程序 知道 我 们 想 要 使 用 这 个 浮 数 的 哪个 版 本 ， 而 且 在 命令 前 面 加 前 缀 忌 是 一 个 好 的 做 法 ， 不 仅 可 以 避免 语法 
音 误 ， 还 可 以 避免 错误 地 调用 了 sparkR 和 普通 R 里 面 名 字 相 同 的 函数 。 


10.5 ”构建 一 个 交叉 表 


既然 我 们 已 经 给 年 龄 分 了 类 ， 可 以 运行 一 个 交叉 表 ， 根 据 年 龄 类 别 给 结果 进行 计数 。 
由 于 只 有 两 个 结果 和 两 个 年 龄 组 ， 交 叉 表 残 有 四 个 格子 : 
1) 首先 ， 用 Databricks 特 殊 的 display 命 令 来 显示 结果 


2) 当 结 果 出 现在 如 下 图 所 示 的 表格 中 以 后 ， 你 可 以 点 击 plot 按 钮 (在 左下 角 的 第 二 个 图 标 ) ， 然 后 就 会 出 现 Customized 
Plot 对 话 框 ， 在 这 里 ， 结 果 可 以 绘制 成 条 形 图 。 绘 图 显示 ， 在 年 龄 较 局 的 分 组 中 ， 得 糖尿 病 的 人 比 低 年 龄 组 要 多 很 多 ， 而 对 于 非 
糖尿 病 患者 的 分 组 ， 情 况 则 相反 : 


table <- crosstab (filtered, "outcome", "agecat™") 
display(as.data.frame (table)) 


» (7) Spark Jobs 





| outcome agecat | 35 Or Older [< 35 
1.0 | 156000 109000 
0.0 179000 297000 











Customize Plot 


All fields: Keys: 


outcome agecat outcome_agecat x 
35 Or Older 

< 二 35 

<id> Series groupings: 


= 3: 


350,000 
300,000 
图 35 Or Older 
250,000 国 <= 35 
200,000 
150,000 
100,000 
ValuesS: 30,000 


35OrOlder x <=35 x 0 


35 Or Older. < 


1.0 0.0 
outcome_agecat 


@ Grouped 
© stacked 
© 100% Stacked 


Aggregation:| SUM Display type:| Bar chart 





10.6 ”构建 直方 


直方 图 也 是 一 个 快捷 的 用 可 视 化 形式 观察 、 比 较 结果 区 量 的 方法 。 


下 面 是 男 一 个 示例 ， 使 用 Spark 的 histogram 销 数 来 构建 非 患 者 和 患者 的 身体 质量 系数 的 均值 。 在 第 一 个 直方 图 中 ， 我 们 可 
以 看 到 最 高 的 柱子 是 38.9BMI1， 与 之 对 照 的 是 非 患者 的 最 高 值 29.8。 这 表示 可 能 BM1 将 会 是 我 们 开发 的 所 有 模型 当中 的 重要 变 


有 


这 段 代码 使 用 了 SparkR 的 histogram 消 数 来 计算 10 个 箱子 的 直方 图 。 质 心 表示 10 个 箱子 各 目的 中 心 值 。 出 现 频率 最 高 的 柱 
子 是 中 心 值 为 38.9 的 ， 其 计数 为 大 约 50 000。 这 种 类 型 的 直方 图 很 有 利于 快速 得 到 变量 分 布 的 大 致 概念 ， 但 是 某 种 程度 上 缺少 
标签 ， 而 且 由 于 幅度 和 学 围 的 天 系 ， 也 不 能 控制 各 种 元 素 。 如 果 你 想 要 向 调 一 些 元 素 ， 可 能 得 从 头 开始 ， 使 用 collect () 函数 
下 载 一 个 样本 到 你 的 本 地 R 机 器 上 。 后 面 我 们 会 讨论 这 个 功能 。 





> tmp k- SparkR: :filter(out_sd,out_ sd$outcome ==1) 
masshist_low <- histogram(tmp , tmp$mass, nbins = 169) 
display (masshist Low) 


» (4) Spark Jobs 


50 000 centrolds 


吧 21.809784822469343 
40.000 国 2522835874637071 
国 28.646932670272076 
国 32.06550659417344 
国 35.484080518074805 
国 38.902654441976175 
国 42.321228365877545 
国 45.73980228977891 
国 49.15837621368028 
国 52.57695013758165 





> tmp <- SparkR::filter(out_sd,out_ sd$outcome ==9) 
masshist_low <- histogram(tmp , tmp$mass, nbins = 19) 
display (masshist low) 


» (4) Spark Jobs 


140,000- 
120,000- 


centrolds 


国 12.178867041823725 


OO 图 16.59706959363507 
80,000- 国 21.015272145446417 
60 .000 - - 国 25.433474697257765 
40000. 四 ”三 29.85167724906911 
国 34.26987980088045 











20.000- 


国 38.6880823526918 


0- ” 国 43.10628490450315 
国 47.524487456314496 
国 51.942690008125844 


[四 | WE) Prwonen | #| 


10.7 ”使 用 ggplot 绘 匿 


如 果 你 喜欢 使 用 ggplot 来 给 你 的 结果 绘图 ， 那 么 先 加 载 ggplot2 包 ， 融 可 以 直接 对 Spark 数 据 帧 运行 绘图 
机 会 来 做 些 进一步 的 定制 。 

此 处 是 一 个 基本 的 pplot， 绘 制 的 图 形 和 上 面 的 histogram () 函数 绘制 的 图 形 是 一 致 的 : 

require (ggplot2) 

plot <- ggplot (age_hist, aes(x = centroids, y = counts)) + 


geom barl(stat = "ijdentity") + 
xlab ("mass") + ylab ("Frequency") 


GLot 





。 你 会 有 更 多 的 


Frequency 


150000 - 
100000 - 
50000 - 上 上 
0- BE EE EE HE 
0 20 40 60 


10.8 Spark SQL 





在 Spark 中 探索 数据 的 另 一 个 途径 是 使 用 Spark SQL。 一 些 分 析 师 还 不 太 会 使 用 针对 特定 语言 的 APl， 例 如 SparkR、 
PySpark (针对 Python) ,以 及 Scala， 那 么 使 用 Spark SQL 也 可 以 探索 Spark 数 据 。 


过 
昨 


将 要 介绍 通过 SQL 访问 Spark 数 据 的 两 种 不 同 的 方法 : 
` 通过 R 接 口 发 布 SQL 命令 : 
这 种 方法 的 优势 是 返回 的 结果 是 R 数 据 帧 ， 有 利于 做 进一步 的 操作 。 
` 通过 Databticks 的 SQL masic: : 指令 来 发 布 SQL 命 令 : 
这 种 方法 使 分 析 师 可 以 直接 使 用 SQL 命 令 ， 在 任何 编程 语言 环境 中 都 可 以 使 用 。 


在 把 一 个 对 象 当 作 SQL 对 象 处 理 之 前 ， 这 个 对 象 需要 注册 为 一 个 3QL 表 格 或 者 视图 。 一 旦 完成 注册 ， 融 可 以 通过 任何 语言 
API 的 SQL 接 口 来 访问 它 。 


注册 过 之 后 ， 你 可 以 使 用 显示 表格 的 SparkR 命 令 来 获取 你 的 会 话 中 所 有 注册 过 的 表格 的 清单 。 


10.8.1 注册 表格 


#register out_sd as a table 


SparkR:::registerTempTable (out_sd, "out_tbl1") 
SparkR:::cacheTable (sqlContext, "out_tbl") 


head (SparkR: :sql (sqlContext, "SHOW tables")) 
b (1) Spark Jobs 


database tableName 
default mC 
default stopfrisk 
out tbl 


spark sample 





10.8.2 ”通过 R 接 口 友 布 SQL 


通过 这 种 方式 写 SQL， 与 通过 sd| 函 数 来 构造 一 个 有 效 的 SQL 字符 串 是 一 致 的 : 
. 该 查询 必须 使 用 一 个 注册 过 的 表格 。 
` 你 可 以 把 查询 结果 赋值 给 一 个 数据 帧 。 


此 处 有 一 个 示例 ， 是 从 注册 过 的 对 象 out_table 中 获取 可 用 样品 的 频率 计数 。 请 注意 ， 代 码 开头 有 %r 命 令 ， 这 是 一 个 特殊 的 
Databricks 指 令 ， 表 示 后 面 的 代码 是 应 用 于 R 的 。 不 过 ， 有 时候 需要 指定 它 (即使 在 R 笔 记 本 里 ) ， 因 为 其 前 面 的 代码 块 使 用 了 
另 一 种 语言 的 指令 ， 例 如 %sq| 或 者 %python : 


O 
二 二 


rm (七 mp ) 


上 mp <— SparkRssaqllsoglContexty "SELECT Sample Bin, count (*) FROM 
out_tbl group by sample bin") 


` 另外 ， 在 Databricks 中 ，sglcontext 已 经 预先 赋值 了 ， 所 以 在 下 面 的 代码 中 可 以 省 略 掉 。 


tmp <= SparkRe :sql ("SELECT Sample Din ss COUunEt(™}) FROM out ED group 
by sample_bin") 


一旦 你 把 数据 提取 到 了 tmp 数 据 帧 ， 就 可 以 显示 每 个 样本 的 计数 了 。 在 串 行 查询 中 ， 你 可 以 根据 样本 的 大 小 和 结果 变量 的 


比例 来 选择 你 感 兴趣 的 样本 。 


head (tmp,1000) 





samp le_bin count(1) 
-142 4666 
18 









1666 









2666 
2666 
1666 
1666 





Dm "J nw IN bb 





| 
Cu 





= 
人 


1000 





10.8.4 创建 一 些 [ 忆 


如 果 我 们 有 兴趣 把 每 个 人 的 血压 和 平均 值 比较 一 下 ， 可 以 构建 一 个 查询 来 计算 较 大 的 Spark 表 格 (out tb1) 的 均值 和 标准 
硅 ， 然 后 根据 结果 变量 的 值 来 给 结果 分 组 。 输 出 也 表示 糖尿 病人 的 年 龄 偏 大 : 


Din SG 可 <— DOarKR SLSEDEECT oUtcome, 

mean (pressure) as mean_pressure, 
std(pressure) as std pressure, 

mean (age) as mean_age, 

std(age) as std_age 

Leon GU tO Eo Dy 

#register the table 
SparkR:::reglisterTempTable (bin agg, "bin agg") 
#print a few records 

head (bin_agg) 


b (5) Spark Jobs 


outcome mean pressure std pressure mean age std age 


1 0 11.60760 71.454448 32.55931 9.274967 
2 1 11.17571 9.905474 39.88985 2.276876 





10.8.5 用 第 三 个 到 多 选 出 一 毕 潜 企 寞 单 值 


现在 我 们 来 构建 第 三 个 查询 ， 用 于 提取 所 有 可 能 被 看 作 异 单 值 的 记录 。 在 这 个 示例 中 ， 我 们 定义 的 寞 单 值 是 年 龄 或 者 血压 相 
对 于 它 所 在 的 结果 妆 量 分 组 的 均值 的 距离 大 于 或 小 于 1.5 倍 标准 差 。 为 了 实现 这 一 点 ， 要 把 age 和 pressure 的 汇总 均值 连接 到 细 
证 级 别 的 数据 中 : 


: 我们 还 可 以 计算 一 个 新 的 列 agedifft， 表 示 年 龄 和 平均 年 龄 之 间 的 差距 。 


-我们 添加 一 个 保护 性 的 过 滤器 limit=1000， 以 便 得 到 的 结果 多 于 这 个 数量 。 在 SQL 查询 中 设置 限制 ， 有 利于 加 速 结 果 的 处 


理 。 在 这 个 示例 中 ， 返 回 的 记录 有 一 条 : 


anomolies <- SparkR: :sql ("select distinct 
a.outcome,pressure,mean pressure,age,b.mean _ age, 
(age—- b.mean age) as agediff 

from bin_ extract a inner ]oln bin agg b 

on a.outcome=b .outcome 

AND 

(a.pressure > mean pressure + (1.5*std pressure)) 
OR 

(a.pressure < mean pressure - (1.*std pressure),) 
OR 

(a.age < b.mean age - (1.S*std _ age)) 

OR 

(a.age > mean age + (1.5*std age)) 

order by agediff desc 

limit 1000") 

head (anomolies,) 


输出 仅 显 示 了 一 条 记录 ， 其 年 龄 比 均值 大 的 幅度 超过 了 1.5 倍 标准 差 。 你 可 以 定制 这 个 截断 值 为 标准 差 的 其 他 倍数 ， 融 可 以 
增加 或 者 减少 返回 的 行 数 ， 这 样 来 寻找 异常 。 


» (1) Spark Jobs 


outcome pressure mean_pressure age mean_age agediff 
1 日 152.931061 70.87059 51.63939 31.19 20.44939 





10.8.6 变 成 SQL AP 


通过 在 第 一 行 写 上 9%sql， 你 残 能 把 代码 变 成 SQL 接口 。 这 样 融会 把 这 个 笔记 本 窗口 里 所 有 的 串 行 代码 语句 都 仪 仪 按照 SQL 来 
理解 执行 。 

在 一 个 串 行 代码 窗口 中 ， 如 果 你 想 要 返回 另外 一 种 语言 ， 可 以 在 第 一 行 输入 %f、%python、%scala 等 。 如 果 你 没有 输入 这 些 
magic 指 令 ， 那 么 代码 在 理解 执行 的 时 候 就 会 按照 笔记 本 的 默认 类 型 (在 这 个 例子 里 面 是 按 R 类 型 ) 。 


下 面 这 行 代码 是 前 面 我 们 写 的 R 代 码 ， 用 来 给 sample_bin 计 数 的 查询 ， 但 是 现在 使 用 纯粹 的 SQL 接口 。 结 果 显示 在 一 个 数据 
透视 表 中 。 如 果 你 想 改 变 显示 的 格式 ， 可 以 选择 原始 数据 图 标 〈 在 数据 下 方 的 工具 条 元 边 第 一 个 ) ， 或 者 选择 Plot 图 标 ( 紧 挨 荐 
的 第 二 个 图 标 ) ， 然 后 选择 一 种 绘图 万 式 ,: 


Sql 
SELECT sample_ bin , count(*) as k FROM out_ tbl group by sample _ bin order by 
k 


park Jobs 





10.8.7 SQL: 用 case 语 句 计 算 一 个 新 列 


我 们 可 以 使 用 SQL 窗 口 利用 上 标准 SQL 所 有 的 好 人 处， 包括 创建 新 列 的 功能 。 在 这 个 示例 里 面 ， 我 们 查询 整个 表格 ， 把 体重 分 
成 两 个 组 : 高 体重 组 (>30) 和 低 体 重组 (<30) ， 然 后 分 别 计算 每 组 的 均值 。 


用 这 个 办 法 ， 我 们 可 以 看 出 ， 在 高 体重 组 中 ， 糖 尿 病 患者 的 体重 均值 要 高 于 非 患 者 的 体重 均值 。 在 低 体重 组 中 也 是 一 样 的 情 
人: 

b {5)Spark Jobs 

BMICAT avglmass) 


BMI_HIGH 37.88309305496696 


BMI_LOW 1 一 一 一 一 25.469591340978635 


BMI LOW | 26.599527908424488 
ET 


EN 


Sql 
select case when mass > 30 then 
outcomey avd (mass) from out_ tbl 


rous BY Lr2 





"BMI_HIGH" else "BMI_ LOW" end as BMICAT, 


» (5) Spark Jobs 


outcorr 


本 1 
于 0 





avg(mass) 





BMICAT 





10.8.8 ”基于 年 龄 段 平 估 结 果 变 量 


把 年 龄 在 30 这 个 断 点 处 分 割 成 两 个 组 ， 可 以 看 出 在 高 年 龄 组 中 糖尿 病 患 者 的 数量 要 明显 高 于 低 年 龄 组 


> %Ssql 
select CASE WHEN age < 36 THEN “YOUNG ”ELSE “OLD”″′ END AS agecat, 
sum(outcome) 
from out tbl 
group by 1 


b (5) Spark Jobs 
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10.8.9 ”计算 所 有 变量 的 均值 


用 纯粹 的 SQL 还 可 以 做 一 些 有 意思 的 比较 ， 计 算 所 有 变量 的 差异 系数 ， 然 后 按照 结果 变量 来 分 组 。 使 用 差 寞 系数 可 以 把 变量 
的 均值 和 差异 标准 化 ， 从 而 在 进行 比较 的 时 候 不 受 其 不 同 幅 度 的 影响 : 


Sgl 

select outcome, 
mean (pregnant)/std(pregnant), 
mean (glucose)/stdl(glucose), 
mean (pressure)/stdl(pressure), 
mean (triceps)/stdl(triceps), 
mean (insulin)/std(insulin), 
mean (mass)/stdl(mass), 
mean (pedigree)/stdl(pedigree), 
mean (age) /stdl(age) 

from out tbl 

号 GY 1 


1) 查询 完成 之 后 ， 切 换 到 绘图 窗口 ， 并 把 绘图 类 型 改 成 线形 图 。 


2) 接着 把 结果 变量 拖 搜 到 Keys 面 板 。 


3) 然后 把 所 有 其 他 变量 拖 搜 到 Values 面 板 。 
然后 融会 出 现 一 个 简单 的 线形 图 ， 用 这 个 图 你 可 以 比较 在 两 个 结果 变量 之 间 所 有 其 他 变量 的 均值 。 


可 以 看 到 ， 对 于 糖尿 病 患者 ， 那 些 变量 的 均值 都 有 所 上 升 ， 其 中 有 些 变量 的 上 升幅 度 要 比 另 一 些 变量 的 上 升幅 度 大 一 些 : 


Lustomlze Plot 


All fields: Keys: 


outcome 
(avg(pregnant) / s... 


(avg(glucose)/ s... 





园 (avg(age)/ stddev_ samp(age)) 

园 (avg(pregnant) / stddev_ samp(pregnant)) 

(avg(pressure)/s...| Series groupings: 国 (avg(pedigree) / stddev_ samp(pedigree)) 

(avgttriceps) / std... 图 (avg(mass)/ stddev_ samp(mass)) 

(avg(insulin) / std... 园 (avgl(insulin) / stddev_samp(insulin)) 

图 (avgl(triceps)/ stddev_sampl(triceps)) 

(avg(pedigree)/s... | ”Values- 图 (avg(pressure) / stddev_ samp(pressure)) 
一 国 (avg(glucose) / stddev_ samp(glucose)) 


(avg(age) / stdde... (avg(age)/ stdd... x 
<id> 国 
(avg(pregnant) /... x > outcome 











(avg(age) / stddev 











(avg(mass) / stdd... 

















Aggregation: | SUM Display type: | Line chart 











我 们 还 可 以 做 一 个 查询 ， 类 似 于 前 面 章节 中 的 异常 值 查询 。 这 次 我 们 要 查询 的 是 age 和 pressure 这 两 个 变量 中 所 有 偏离 均值 
的 幅度 大 于 两 个 标准 差 的 那些 记录 : 


SGl 

select distinct a.outcome,pressure,mean pressure,age,mean _ age from 
bin_extract a inner Join bin_ agg b 

on a.outcome=b .outcome 


AND 

(a.pressure > mean pressure + (2*std pressure)) 
OR 

(a.age > mean_ age + (2*std _ age)) 

La LOU 


» (5) Spark Jobs 


pressure mean pressure age mean age 
75.93100817427452 71.60760161398534 51.63938860382109 32.55030965046543 


75.93100817427452 71.17571330678416 51.63938860382109 39.889849391046326 





10.9 从 Spark 回 到 R 来 探索 数据 


经 常会 有 这 种 情况 ， 即 你 想 要 做 的 分 析 类 型 在 SparkR 里 面 是 不 支持 的 ， 那 么 你 就 需要 从 Spark 对 象 里 面 提 取 数 据 ， 然 后 回 到 
基本 R 中 。 


例如 ， 在 前 面 的 章节 中 我 们 可 以 运行 correlation 和 covariance 函 数 ， 在 输入 中 指定 成 对 的 变量 。 不 过 ， 我 们 并 没有 生成 整 
个 数据 帧 的 相关 性 和 矩阵， 有 如 下 几 个 原因 : 


“ 在 你 当前 使 用 的 Spatk 版 本 中 还 没有 加 入 这 种 功能 。 
“ 即使 有 这 种 功能 ， 可 能 在 Spatk 里 面 进 行 这 种 计 和 站 所 需要 的 代价 太 高 。 


一 般 来 说 ， 比 较 合 理 的 策略 是 ， 使 用 Spark 消 数 来 探 奈 数据 的 一 些 基 本 性 质 ， 并 使 用 专门 为 Spark 写 的 包 (例如 MLlib) 来 执 
行 这 些 操 作 。 

对 于 其 他 的 情况 ， 即 你 想 要 进行 一 些 更 深度 的 分 析 ， 就 从 Spark 数 据 帧 里 提取 一 个 样本 ， 然 后 使 用 普通 的 R 数 据 帧 来 进行 分 
析 。 做 这 些 工 作 的 时 候 ， 比 较 好 的 做 法 是 ， 不 要 返回 全 部 群体 的 数据 ， 而 是 仅仅 返回 一 个 样本 或 者 一 个 子 段 。 毕 竟 ， 如 果 你 想 要 
从 Spark 里 面 提取 整个 数据 帧 的 话 ， 你 一 开始 束 不 必 使 用 Spark， 可 以 直接 在 本 地 R 里 面 进行 全 部 的 分 析 ! 


我 们 可 以 使 用 collect () 遂 数 来 提取 数据 ， 先 过 站 sample_bin， 然 后 返回 一 个 名 为 samp 的 本 地 数据 帧 。 如 果 你 对 samp 运 
行 str () 尔 数 ,会 看 到 输出 的 第 一 行 束 显示 了 这 是 一 个 普通 的 R 数 据 帧 ,不 是 一 个 Spark 数 据 帧 : 


#bring a sample back to R and visualize 

samp <- SparkR: :collect (SparkR: :filter (out_sd, "sample _ bin >= -50 and 
sample_bin <= 50")) 

str (samp) 


data.frame': 776696 obs. of 19 variables: 
sample bin: num 13 28 12 40 7 39 41 38 13 33 ... 
outcome num 上 JJ JLJLJULJLJ_LJULLJL 。。。 
pregnant  : num .2 1.i3 bbLl b.31 De2 。。。 
glucose ”num 189 143 146 167 189 ... 
pressure : num 61.9 84.1 91.2 92.3 84.7 ... 


insulin : num 181.682 >269 .668 63.564 D.372 180.244 .. 
mass :num 42.5 49.3 34.9 51.1 417.5 ... 
pedigree : num 0.251 9.68 9.622 90.822 0.355 
Ee num 26.2 41.8 31.6 37.8 37.5 ... 





Y 
? 
? 
y 
$ triceps num 28.2 57 29.4 58.2 41.5 ... 
y 
y 
? 
? 


10.10 ”运行 本 地 R 包 


一 旦 你 提取 到 了 样本 ， 融 可 以 运行 R 阔 数 (例如 pairs) 来 生成 相关 性 矩阵， 或 者 使 用 reshape2 包 和 ggplot 消 数 生成 一 个 相 


天 性 图 形 。 


10.10.1 使 用 pairs 了 为 效 (在 基本 包 中 提供 ) 


#this takes our "collect()" data frame which we exported from Spark, and 
runs a basic correlation matrix 


pairs(samp[,3:8], col=samps$outcome) 





10.10.2 ”生成 一 个 相 天 性 图 形 


这 是 一 个 看 起 来 比较 复杂 微妙 的 图 形 ， 使 用 ggplot 来 演示 生成 一 个 相关 性 矩阵， 在 各 个 变量 交叉 的 地 方 使 用 阴影 来 表示 它 
们 的 相关 程度 。 由 次 强调 一 下 ， 如 果 你 的 样本 大 小 不 是 大 离谱 ， 可 以 在 Spark 外 部 进行 分 析 ， 而 你 使 用 的 那个 功能 是 在 你 的 
Spark 版 本 里 面 没 有 提供 的 。 


requlire (ggplot2) 

library (reshape2) 

CoOrmatrix <— 了 OUTateor (SameyJy 2)} 

cormatrix melt <- melt (cormatrix) 

head (cormatrix_melt) 

ggplot (data = cormatrix_melt, aes (x=Vari1, y=Var2, fill=value)) + 
geom_raster() 


age - 
pedigree - 
mass ~ 
Insulin -~ 
triceps ~ 
pressure ~ 
glucose - 
pregnant ~ 
outcome ~ 


sample_bin - 


' nl ' ' ' ' ' ' 和 
sample_binputcome pregnant glucose pressure triceps _ insulin mass pedigree age 
Var1 多 Share Image 





10.11 一 些 天 于 使 用 SparkH 扩 15 


请 参考 下 面 的 这 些 反 巧 : 
“ 尽 可 能 使 用 抽样 。 使 用 sample_bin 方 法 论 和 过 滤 命 令 库 。 机 样 可 以 加 快 分 析 速 度 ， 包 括 分 析 阶 段 和 开发 /测试 阶段 。 
一 旦 在 较 小 的 数据 段 上 完成 了 测试 ， 你 可 以 很 有 信心 地 把 同样 的 方法 扩展 到 大 得 多 的 群体 数据 上 。 
“ 处 理 数 据 ， 以 便于 你 可 以 选择 一 些 你 感 兴趣 的 子 段 。 
“ 适当 的 时 候 对 分 析 进 行 缓存 。 
“ 如 果 出 现 了 性 能 问题 ， 试 试 把 数据 分 成 更 多 的 小 块 。 


“ 处 理 很 大 的 数据 时 ， 提 取 一 些 有 代表 性 的 样品 ， 用 本 地 RR 来 操作 。 


10.12 ”本 童 小 结 


在 本 章 里 ,我们 学 习 了 探索 Spark 数 据 的 基础 知识 ， 包 括 使 用 一 些 Spark 的 特殊 命令 ， 这 样 我 们 就 能 够 对 Spark 数 据 进 行 过 
滤 、 分 组 和 汇 忆 。 


我 们 还 学 习 了 如 何在 Spark 中 直接 把 数据 可 视 化 ， 以 及 如 何 运 行 R 销 数 (如 ggplot) 来 处 理 数据 。 我 们 学 习 了 一 些 用 Spark 
数据 工作 的 策略 ， 比 如 进行 智能 过 滤 和 抽样 。 


最 后 ， 我 们 还 演示 了 ， 时 不 时 地 还 需要 提取 Spark 数 据 ， 回 到 本 地 R 中 ， 这 样 才能 灵活 地 使 用 一 些 在 Spark 环 境 中 没有 的 常用 
工具 . 


第 11 章 ”Spark 机 器 学 习 : 回归 和 聚 类 模型 


比 起 通过 我 们 内 省 的 方法 ， 思 维 机 器 的 研究 可 以 告诉 我 们 更 多 关于 大 脑 的 知识 。 西 方 人 正 以 小 装置 的 形式 将 自己 外 部 化 。 





William S.Burroughs (Naked Lunch) 


11.1 天 于 本 章 / 你 将 学 到 什么 


表面 的 章节 介绍 了 spark 和 sparkR， 并 强调 了 如 何 使 用 SQL 来 探索 数据 。 在 本 章 中 ， 我 们 将 开始 使 用 MLIib 来 研究 Spark 的 
机 器 学 习 功 能 ，MLlib 是 与 Spark 打 包 在 一 起 的 原生 机 器 学 习 库 。 


本 章 将 介绍 逻辑 回归 和 聚 类 算法 。 下 一 和 章 将 介绍 基于 规则 的 算法 ， 其 中 包括 决 禹 树 。 有 举 内 容 已 经 在 以 前 的 章节 中 使 用 R 语 
言 的 PC 版 本 讨论 过 。 本 草 以 及 下 一 章 主要 讨论 如 何 准备 数据 ， 并 使 用 Spark 中 存在 的 MLlib 算 法 来 应 用 这 些 技 术 。 


11.1.1 读 取 数据 

在 上 一 章 中 ， 我 们 将 out_sd 保 存 到 一 个 外 部 的 Parquet 文 件 中 。 在 现实 世界 中 ， 你 将 面临 分 析 多 个 数据 源 的 问题 。 通 党 ， 这 
些 数据 源 将 具有 相似 的 模式 ， 但 是 它们 在 写 入 的 时 间 段 上 会 有 所 不 同 。 

例如 ， 日 志文 件 可 以 存档 在 不 同 的 目录 中 ， 按 日 期 分 类 ， 作 为 分 析 人 员 需 要 读 入 多 个 文件 并 将 它们 连接 在 一 起 。 

因此 ， 虽 然 每 个 文件 可 能 很 小 ， 但 当 汇 总 在 一 起 时 ， 它 们 会 产生 一 个 大 很 多 的 文件 。 


假设 我 们 将 在 过 去 两 天 中 的 几 个 文件 上 进行 一 些 机 器 学 习 。 为 了 便于 说 明 ， 在 两 个 输入 中 使 用 的 是 同一 个 文件 。 但 实际 上 ， 
你 可 能 会 连接 许多 天 的 交易 记录 : 
1) 首先 ， 读 取 数 据 。 回 想 一 下 ， 在 前 一 草 中 是 以 Parquet 格 式 保存 这 些 文件 的 : 
todays_file <- pargquetFile (sgqlContext, 
" /tmp/temp.parquet") 


yesterdays_file <- pargquetFile(sgqlContext, 
"/tmp/temp.pargquet") 


2) 使 用 Spark unionAll () 函数 将 两 天 的 数据 连接 成 一 个 文件 : 


out_sd <- unionAll (todays_file,yesterdays_file) 


3) 读 入 文件 之 后 可 以 缓存 out_sd 文 件 ， 以 便 在 会 话 的 其 余部 分 对 其 进行 优化 查询 : 


cache (out sd) 


接 下 来 ,使 用 SparkR mean () 和 count () 函数 验证 文件 的 完整 性 。 例 如 ， 我 们 从 原始 数据 中 知道 大 约 34% 的 结果 是 正 
值 ， 因 此 我 们 可 以 使 用 这 些 国 数 作为 计算 器 ， 来 确定 这 些 文 件 包含 9536 000 个 正 值 的 实例 。 为 什么 要 这 样 做 呢 ? 在 处 理 大 型 数据 


集 时 ， 在 开始 处 理 记录 之 前 ， 通 弟 首 移 需 要 验证 文件 内 容 。 通 过 做 一 些 数据 准备 工作 来 节省 时 间 ， 这 一 点 非 音 重要 : 
head (SparkR: :select (out_ sa， 


count (out_sd$outcome),mean(out sd$outcome),mean(out_ sd$outcome)*count (out s 


d$outcome))) 


» (3) Spark Jobs 


count(outcome) avgloutcome) (avg(outcome) * count(outcome)) 
1536880 06.3489583 536000 





11.1.2 ”运行 数据 帧 的 摘要 并 保 仔 对 象 


接 下 来 ， 将 创建 数据 帧 的 摘要 。 但 是 ,我 们 不 是 像 过 去 一 样 输出 摘要 ， 而 是 将 摘要 的 结果 保存 到 一 个 对 象 中 ， 因 为 我 们 稍 后 
将 使 用 聚合 信息 将 其 合并 到 原始 数据 中 。 同 样 ， 如 果 你 要 操作 大 型 数据 集 ， 则 不 必 在 相同 的 数据 上 多 次 运行 Summary () 函 


数 : 
1) 设置 一 些 全 局 选项 ， 如 有 效 数 字 的 数量 、 绘 图 宽度 和 高 度 等 。 
2) 将 摘要 输出 分 配给 一 个 数据 帧 。 
3) 使 用 Databricks 的 display () 函数 (或 head () 函数 ) 输出 该 文件 的 一 部 分 


options (digits=3) 


options (repr.plot.width = 1000, repr.plot.height = SOD 
repr.plot.res = 144, repr.plot .pointsize = 5) 
sumdf = summary (out_sdqd) 


drsplav {tseumatf) 


1536000 1536000 1536000 1536000 1536000 1536000 
159.46377333976378 | 32.442846279285206 | 0.4718763020832466 


pregnant 
count 1536000 1536000 1536000 
mean -113.67317708333333 | 0.3489583333333333 | 3.845052083332693 | 121.68778671732643 | 72.40477794289117 | 29.24877013964472 
| 220.73237864042508 | 0.4766409160347798 | 3.3673847085630393 | 30.441761915341296 | 12.096901966371815 | 8.923475282028773 |91.29939768938557 | 6.874555211563171 
-5.267836632739748 | 39.06326135657574 |35.40654724700748 |0.7607894364323116 | -148.15344457408253 | 9.969765765918051 |-0.546147823960402 


13.798168411407868 | 219.71433564781285 | 112.13158466413095 | 58.23733534004559 | 456.09990684013997 | 54.28623709953233 | 1.687677997650607 
» 


stddev 0.3311129238127968 


min -500.0 0.0 
max 267.0 1.0 
¢ 





测试 数据 集 





11.2 ”将 数据 分 割 成 训 


继续 创建 测试 和 训练 数据 集 。 目 标 是 抽样 80% 的 数据 到 训练 数据 组 ， 抽 样 20% 的 数据 到 测试 数据 组 。 


为 了 加 快 抽样 速度 ， 可 以 先 抽样 Sample_bin 范 围 的 尾部 作为 测试 数据 集 ， 然 后 使 用 中 间 部 分 作为 训练 数据 。 这 仍然 是 一 个 
随机 样本 ， 因 为 sample_bin 最 初 是 随机 生成 的 ， 数 字 的 序列 或 范围 与 随机 性 没有 关系 。 


11.2.1 ”生成 训 





练 数据 集 


由 于 我 们 需要 80% 的 数据 作为 训练 数据 ， 因 此 首先 定义 一 个 高 截止 值 和 一 个 低 截 止 值 ， 取 位 于 二 者 之 间 的 所 有 sample_bin 
数据 。 可 以 将 截止 范围 定义 为 saample_ bin 的 最 高 值 和 最 低 值 之 差 的 20%。 


将 低 截止 值 设 置 为 最 低 值 加 上 之 前 的 截止 值 沁 围 ， 将 高 截止 值 设 为 最 高 值 减 去 截止 值 汽 围 : 


#compute the minimum and maximum values of sample bin 
set.seed(123) 

sample_bin min <- as.integer (collect (select (out_sdqd, 
min(out_sdssample_bin)))) 

sample_bin max <- as.integer (collect (select (out_ sa， 
max (out_ sdqS$sample_pin) ) ) ) 


Cutoff <- .20x (Sample_bln max - sample_bin_min) 
Cutoff_low <- sample_bin _ min + Cutoff 
Cutoff_ high <- sample_ bin max — Cutoff 


rml(df) 


#take 80% of the training samples . 
in the middle. 


These happens to be the ones that fall 


df <- filter(out_sd, out_sd$sample bin > Cutoff low & out_sd$ssample bin < 
GUtGEE ia) 
train_sumdf = summary (df) 


使 用 Databricks 的 display 命 令 中 的 Spark select () 函数 输出 一 些 关 键 字段 。 请 注意 ， 当 以 这 种 方式 编写 汇总 对 象 时 ， 每 个 


变量 总 是 有 5 行 (Count、mean、sdev、min 和 mins) 和 1 列 : 


display (select (train sumdf, summary ys “outcome > "pregnant", age "mass"; "glu 
Cose", "triceps")) 


1238000 
0.3473344103392569 
0.4761233042460107 
0.0 
1.0 


二 


pregnant 


1238000 


3.8393078551561945 
3.4609137686182487 
-5.267836632739748 
13.798168411407868 


1238000 


33.10107006771893 
11.840237146096062 
-1.469171542253246 
73.95268273579066 


| mass 
1238000 


32.38097983343372 
6.7386355088915995 
12.476112430010328 
54.15179128403151 


glucose 
1238000 


121.13880674688428 
30.58392015453745 
39.06326135657574 
219.71433564781285 





triceps 


1238000 


29.02635605075717 
8.83891870375425 
0.7607894364323116 
58.23733534004559 


11.2.2 ”生成 测试 数据 集 


为 了 生成 测试 数据 ， 我 们 将 只 选择 截止 范围 之 外 的 那些 行 。 这 将 得 到 20% 的 样本 。 请 注意 ，SparkR 的 describe 销 数 是 
summary () 水 数 的 别名 。 当 你 想 避 免 Spark 和 R 语 言 的 基础 疯 数 之 间 的 名 字 冲 突 时 可 以 使 用 它 。 


#set the test data set to include the rest of the population 


set .SeeQ (123) 


test <- filterl(out_sd, out_sd$sample bin <= Cutoff_ low | out_sd$sample_bin 


>= Cutoff_high) 
test sumdf = describe (test) 


display (select (test_sumdf,"summary", "outcome", "pregnant", "age", "mass", "gluc 


ose", "triceps")) 


outcome | pregnant age mass 
298000 298000 298000 298000 
0.35570469798657717 3.8689156889824896 33.82172904758105 32.69986191673218 


0.47872709853948375 2.9471078158413375 11.36279056675114 7.407060808651703 
0.0 -2.7745181707450337 0.3325954626676797 9.969765765918051 
1.0 11.726947624108954 55.30614098944598 54.28623709953233 


glucose 
298000 


123.96844847374449 
29.73566972935832 
49.71976008885286 
194.24078367540534 


triceps 

298000 
30.172758871343312 
9.20917898210801 
5.837573292896575 
51.93047275913541 





11.2.3 ”天 于 并 行 处 理 风 况 明 


Spark 将 尽 可 能 利用 并 行 处 理 算法 。 提 取 训 练 和 测试 数据 样本 是 一 个 很 好 的 例子 ， 因 为 提取 训练 数据 集 和 提取 训练 数据 可 以 


独立 执行 。 


因此 ， 在 Databricks 中 ， 你 能 够 通过 进度 条 看 到 它们 同时 运行 。 在 一 个 代码 块 依赖 于 另 一 个 代码 块 的 情况 下 ， 你 会 看 到 执行 
寺 


已 经 开始 了 ， 但 它 将 处 于 等 待 状态 ， 直 到 所 等 待 的 代码 块 完成 之 后 继续 执行 。 


从 这 个 意义 上 说 ， 你 在 开发 分 析 代 码 时 ， 应 该 尽 可 能 地 利用 并 行 处 理 。 


11.2.4 将 误差 引入 测试 数据 集 


由 于 测试 和 训练 数据 集 都 是 通过 模拟 随机 正 态 分 布 生 成 的 ， 因 此 数据 几乎 是 完美 的 。 为 了 弥补 这 一 点 ， 使 数据 更 真实 ， 并 帮 
助 你 学 习 更 多 的 模拟 近 能 ， 可 以 在 测试 数据 集中 引入 一 些 随 机 误差 。 例 如 ， 我 们 可 能 要 给 测试 数据 的 变量 加 上 一 个 上 10% 泡 围 内 


的 变化 。 


要 做 到 这 一 点 ， 首 先 要 产生 一 个 可 以 应 用 到 原始 数据 的 误差 。 为 了 简单 起 见 ， 可 以 推导 出 4 个 离散 误差 箱子 ， 每 个 误差 箱子 


指定 对 数据 调整 的 不 同 百 分 比 。 在 -10% 和 +10% 之 间 的 百分比 误 笑 是 合理 的 限制 。 


人 仙 : 


#set the random seed 
set.seed(123) 

#set 七 he pins 

x <— rnorm(n=25,mean=0, sd=4)/100 
#assign errors conditionally 

x < 一 lifelse(abs(x) > .10,0,x) 


在 下 面 的 代码 中 ， 通 过 使 用 rnorm 函 数 生成 误差 箱子 ， 然 后 将 超出 +103% 的 值 设 置 为 0。 这 样 融 定 义 了 用 于 选择 误差 概率 的 


11.2.5 ”生成 分 布 的 直方 图 


我 们 不 是 简单 地 绘制 分 布 图 ， 而 是 绘制 分 布 的 直方 图 ， 以 便 我 们 可 以 看 到 近似 的 误差 箱子 的 样子 。 实 际 上 ， 要 绘制 两 个 不 同 
的 直方 图 ， 一 个 使 用 实际 计数 ， 另 一 个 表示 百分比 : 

par (mfrow=c (1,2)) 

h <- hist (x, fregq=FALSE,right=FALSE,breaks=c(-.20, -.15,-.10,-.05, 0, .05, 

| 


Brint (hy 


plot (hs$mids,100*h$scounts/sum(h$counts),type="h", lwd=25, lty=1, 
main="Probability of Errors Introduced") 


在 下 面 的 图 中 ， 你 可 以 从 左 侧 的 直 万 图 中 看 到 ， 没 有 超出 指定 限制 的 值 。 实 际 上 ， 由 于 分 布 是 以 均值 为 0 生成 的 ， 所 以 很 多 
测试 元 素 都 没有 添加 任何 误差 。 这 是 与 设计 一 致 的 。 


右 侧 生成 的 条 形 图 只 是 为 了 显示 每 个 柱 的 相对 百分比 〈 而 不 是 直接 的 频率 分 布 ) 。 例 如 ， 从 中 可 以 看 出 ， 调 整 幅度 在 5% ~ 
10% 的 概率 约 为 12%: 


X 的 直方 图 引入 错误 的 概率 








8 40 
= 
6 = 30 
只 
< 所， 
S 
EN 3 
人 4 呈 20 
i 
二) 
© 
上 
三 
ms. 
2 二 10 
0 0 
[ TT “TT T | | 国生 
-U.2 -0.1 0.0 0.1 0.2 -0.13 -0.03 0.05 0.15 
X h$mids 


11.2.6 ”生成 有 误 替 的 新 测试 数据 
现在 我 们 可 以 在 数据 集中 引入 一 些 变 化 一 在 每 个 变量 中 加 入 一 个 随机 的 百分比 。 要 做 到 这 点 ， 首 先 要 对 误差 分 布 (x) 进 
行 一 次 抽样 


请 注意 ， 由 于 基本 样本 消 数 与 Spark 抽 样 销 数 的 语法 不 同 ， 因 此 需要 在 基本 抽样 消 数 前 面 加 一 个 base: 。 如 果 你 没有 这 人 么 


做 ， 束 会 得 到 一 个 报错 信息 : 


# alter the test data set by sampling from the 'x' distribution and adding 
or subtracting the introduced error adjustment. 

testS$age = testS$age + test$age*base::sample(x, 1, replace = FALSE, prob = 
NULL) 


test$pregnant = test$pregnant + test$pregnant*base::sample (x, 1, replace 
FALSE, prob = NULL) 


test$glucose = testS$glucose + testS$glucose*base::sample(x, 1, replace = 
FALSE, prob = NULL) 


test$pressure = test$pressure + testS$pressure*base::sample (x, 1, replace 
FALSE, prob = NULL) 


teststriceps = testS$triceps + tests$triceps*base::sample (x, 1, replace 
FALSE, prob = NULL) 


test$insulin = test$insulin + test$insulin*base::sample(x, 1, replace 
FALSE, prob = NULL) 


testSmass = test$mass + tests$smass*base::sample(x, 1, replace = FALSE, prob 
= NULL) 


test$pedigree = test$pedigree + tests$spedigree*base::sample(x, 1, replace = 
FALSE, prob = NULL) 


#calculation the number of rows again, to make sure they are the same as 
before 


nrow (test) 


» {1) Spark 


[1|] 2986696 





11.3 ”使 用 逻辑 回归 的 9park 机 器 学 习 


既然 已 经 构建 完了 测试 和 训练 数据 集 ， 融 要 建立 一 个 逻辑 回归 模型 来 预测 结果 1 或 0。 你 应 该 记得 ，1 表 示 检 测 到 糖尿 病 ， 而 
0 表示 没有 检测 到 糖尿 病 。 


Spark glm 的 语法 与 普通 的 gIm 非 常 相似 。 使 用 公式 表示 法 来 指定 模型 。 一 定 要 指定 family="binomial" 来 表示 输出 变量 只 
有 两 个 结果 : 


# run glm model on Trainind dataset and assign it to object named "model" 


model <- spark.glm(outcome ~ pregnant + glucose + pressure + triceps + 
lnsulin + pedigree + age,family = "binomial", maxlter=100, data = df) 
summary (model) 


11.3.2 正则 化 模型 


正则 化 模型 是 spark.glm 的 蔡 代 方案 ; 也 可 以 运行 spark.logit， 并 将 正则 化 参数 提供 给 自 变 量 。 


默认 情况 下 ，spark.logit 将 产生 与 spark.glm 相 同 的 、 没 有 正则 化 参数 的 结果 : 


model2 <- spark.logit (df, outcome ~ pregnant + glucose + pressure + triceps 
+ linsulin + pedigree + age) 


要 验证 这 一 点 ， 请 分 别 运 行 一 下 spark.log 和 spark.glm， 并 检验 结果 是 否 相同 。 
验证 了 这 一 点 之 后 ， 如 果 你 想 通 过 使 系数 变 得 局 平 些 ， 或 者 将 其 中 一 些 设置 为 0 来 平滑 模型 ， 你 就 可 以 添加 正则 化 参数 。 


以 下 运行 的 模型 仅 使 用 葡萄 糖 、 胰 乌 素 和 血压 作为 预测 因子 。 由 于 elasticnetparm (0.8) 介 于 0 和 1 之 间 ， 其 中 0 使 用 L2，1 
使 用 L1， 所 以 它 将 使 用 L1 和 L2 正 则 化 的 组 合 。 因 此 ， 你 会 看 到 一 些 系数 缩减 到 了 0: 


# Fit an binomial logistic regression model with spark.l1ogit 


model2 <- spark.logit (df, outcome ~ pregnant + glucose + pressure + triceps 
+ insulin + pedigree + age, maxIter = 10, regParam = 0.1, elasticNetParam = 
0Qx8) 


summary (mode12) 


* (18) Spark Jobs 


$coefficients 


Estimate 
(Intercept)} -0.864 








© 
glucose 0.00356 
pressure -0 .O0751 


pregnant 








triceps © 
insulin ©.900216 








© 
D 


pedigree 
age 





» (1) Spark Jobs 


Deviance Res7iduals: 

(Note: These are approximate quantiles With relative error 《= 0.01) 
Min 10 NMedian 30 Max 

-2,19723 “0,78663 -0.46373 0.,.73562 2,.11291 


Coefficients: 
Estimate Std, Error tT value Pr‘2|t|) 

(Intercept)} -6.8738 0.01376 -499.54 0 
pregnant OQ.10571 OQ.00066769 158.32 9 
glucose 0.027519 7 了 7.4042e-o5 371.67 0 
pressure 0.00651251 OQ.00017208 35.593 9 
triceps 0.044508 OQ.00022808 195 ,14 
insulin O00.0037124 2.4464e-05 151.75 9 
ped1igree O00.56068 O00.0058485 95.8668 © 
age ~D.,Do48355 0.00021013 ~23.012 0 


(Dispersion Parameter for binomial family taken to be 1) 


Null deviance: 1598954 on 1237999 degrees of freedom 
Residual deviance: 1116432 on 1237992 degrees of freedom 
AIC: 1116448 


Number of Fisher Scoring Titerations: 1 


11.3.4 ”绘制 结果 

在 Spark 中 绘制 结果 的 一 种 方法 是 构建 概率 的 直方 图 ， 在 x 轴 上 使 用 柱状 范围 (质心 ) 的 中 点 ， 在 y 轴 上 绘制 每 个 柱状 的 原始 
计数 。 

x=SparkR: :histogram(preds_ train,preds trains$sprediction, nbins = 100) 


x$Ccentroids=round (x$centroids,2) 
display (x) 


自 定义 绘图 屏幕 将 显示 : 
1) 使 用 下 拉 选 择 菜单 和 单 选 按钮 的 组 合 将 Display type 设 置 为 Grouped Bar。 


2) 把 counts 从 All Fields 拖 暇 到 Values 下 。 


3) 把 Centroids 拖 蝶 到 Keys 下 。 


质心 代表 柱状 条 的 中 点 。 在 上 面 的 代码 中 ， 将 它们 四 舍 五 入 到 小 数 点 后 两 位 ， 这 样 在 生成 的 图 上 便于 读 取 。 如 果 图 泻 染 出 来 
太 小 了 ， 则 需要 再 次 打开 Customize Plot 查 看 ， 并 把 它 变 大 一 些 。 


输出 所 示 是 一 个 典型 的 逻辑 模型 的 密度 ， 其 中 大 部 分 权重 都 预测 结果 是 non-event。 右边 表 示 较 高 的 预测 概率 ， 此 处 这 些 柱 
状 条 表示 预测 结果 为 1 的 概率 。 


Customize Plot 





50,000 [ 
40,000 


Senes groupings: | 
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20,000 


10,000 下 E ] | | 面 『 本 "Tn IT| l 


0 
0.01 0.09 0.17 0.25 0.33 0.41 0.49 0.57 0.65 0.73 0.81 0.89 0.97 
centroids 


四 Grouped 
@ Stacked 
@ 100% Stacked 


Aggregation:| SUM Display type: | Barchart 


Apply 





11.4 运行 测试 数据 的 预测 


接 下 来 ， 为 测试 数据 组 编写 类 似 的 代码 。 将 grp 标 志 设 置 为 0， 表 示 它 来 目测 试 组 : 


#run predictions on test dataset based on training model 
preds_test <- predict (model, test) 

preds_testS$grp <- 0 

preds_teststotrows = nrow (preds_test) 


使 用 SparkR 的 Select 为数 从 结果 中 输出 几 行 ， 以 提取 几 个 关键 的 列 : 


head (SparkR: :select (preds_test,preds_testS$outcome,preds_test$prediction,pre 
ds_testS$grp,preds_tests$totrows)) 


(2) Spark Jobs 


outcome prediction grp totrows 
6 0Q.1685 OO 298000 
OQ.3154 298000 

0.3441 

0.0729 

日 . 176r 


9.3189 





11.5 合并 训 | 练 和 测试 数据 集 


接 下 来 ， 将 训练 (grp=1) 和 测试 (grp=0) 数据 合并 到 一 个 数据 帧 里 ， 并 手动 计算 一 些 精确 的 统计 数据 : 


“ preds$error: 这 是 结果 (0，1) 和 预测 之 间 的 绝对 差异 。 前 面 曾 说 过 ， 在 二 元 回归 模型 中 ，“ 预 测 ” 表 示 事 件 (糖尿 病 ) 
将 发 生 的 概率 。 


preds$errorsqt: 这 是 计算 出 来 的 平方 差 。 这 用 于 去 挤 差 异 的 符号 。 


preds$correct: 为 了 将 概率 分 类 为 正确 或 不 正确 ， 用 一 个 0.5 的 阅 值 来 比较 误差 。 如 果 误 差 很 ,、(<0.5) ， 就 认为 正确 ， 否 
则 就 认为 不 正确 。 这 是 一 个 有 点 任意 的 阅 值 ， 用 来 确定 将 预测 放 在 哪个 类 别 中 。 


最 后 一 步 ， 再 次 将 数据 分 离 ， 分 成 基于 grp 标 志 的 测试 组 和 训练 组 : 


为 Correct。 


#classify "Correct ' prediction if error 1S less than or equal to .5 
preds <- rbind(preds_ train,preds_test) 


predss$error = abs (predss$sprediction-preds$outcome) 


#square the error to get the absolute squared error 


predsserrorsgr = (predss$sprediction-preds$outcome) ^ 2 


#assign correct=Yes, or Correct=No 


ifelse(predsS$error <= .5, "“Y","N") 


round( (preds$error*10),0) 


predss$scorrect = 
predss$errbin = 
data again, 


#separate the Includqlng the new columns 


preds_train 
preds_test = 


filter (preds, 
filter (preds, 


predssgrp==1) 
predssgrp==0) 


接 下 来 ， 输 出 一 些 结果 。 
另 一 方面 ， 第 6 个 观察 


你 可 以 从 输出 中 看 到 ， 由 于 模型 概率 是 0.03， 并 且 更 接近 实际 结果 (0) ， 
(在 临界 值 附近 ) 被 分 类 为 预测 结果 为 1， 


所 以 第 一 个 观察 被 分 类 
但 这 是 错误 的 ， 因 此 correct 被 设置 为 N: 


head (preds,) 


» {1) Spark Jobs 


sample bin outcome pregnant glucose pressure triceps insulin mass pedigree 


age 
1 33.20 
2 26.04 
3 25.33 
4 9.12 
5 16.81l 
5 40.24 


-144 

-395 

-205 

23 

-265 

= 
label 
D 


-1.4808 
1.1046 
“0.3764 
“0.0204 
1.7489 
6.7640 


73.4 
105.6 
132.1 
1l1l1.9 

83.4 
157.6 


66.6 
71.0 
65.9 
64.6 
48.4 
82.2 


19.8 
22.3 
17.5 
34.0 
15.1 
15.4 


prediction grp 
0.0313 
0.1690 
0.1648 
O00.2240 
0.0418 
0.5483 


11.6 ”将 这 三 个 表 提 供给 SQL 


现在 可 以 注册 三 个 


totrows 
1238000 
1238000 
1238000 
1238000 
1238000 
123800D 


天 键 表 ， 以 便 可 以 运行 一 些 SQL 代 码 ， 


error 
0.0313 
0.1690 
0.1648 
OQ.2240 
0.0418 
0.5483 


104.1 
114.7 
117.3 
1606.4 

55.3 
187.0 


23.9 
30.5 
25.8 
44.0 
29.1 
29 .9 


errorsqr correct errbin 


0.000979 
0.028549 
0.027152 
0.050170 
0.001744 
0.300668 


这 是 为 了 做 一 些 额外 的 诊断 : 


W 


0.112 
0.948 
0.283 
0.520 
0.298 
0.582 





registerTempTable (preds, "preds_tbl") 
registerTempTable (preds_train, "preds_ train") 
reglilsterTempTable (preds_test, "preds_test") 


11.7 ”验证 回归 结果 
SparkR 中 的 逻辑 回归 算法 缺少 一 些 交 叉 验 证 和 其 他 R 的 特性 。 但 是 ， 把 它 作为 一 个 起 点 ， 让 你 可 以 开始 运行 大 型 模型 。 如 果 
你 需要 使 用 一 些 前 面 已 经 介绍 过 的 交叉 验证 技术 ， 当 然 也 可 以 (通过 collect 国 数 ) 提取 数据 的 样本 ， 并 在 R 中 运行 回归 。 


但 是 ， 有 一 些 技术 可 以 用 于 生成 仿 R2 和 和 其 他 诊断 ， 同 时 继续 在 Spark 中 工作 ， 我 们 将 演示 这 些 技 术 。 


11.8 ”计算 拟 合 度 的 好 坏 


竟 消 算 阵 
当 将 预测 结果 归 类 为 正确 和 错误 时 ， 可 以 计算 竟 清 和 矩阵 或 误 磊 和夫 阵 ， 以 确定 手动 计算 的 效果 如 何 : 


#Confusion matrix 
result <- sql("select outcome,correct, count (*) as k, avg (totrows) 


totrows from preds_tbl where grp=1 group by 1,2 order by 1,2") 
result$classify_pct <- result$k/result$totrows 


ds 


display (result) 


ee 


加 La 此] 





要 确定 总 的 正确 模型 预测 ， 需 要 对 correct=Y 的 列 进行 求 和 。 


训练 数据 组 正确 预测 总 和 : 


正确 预测 出 outcome=1 20o4 
正确 预测 出 outcome=0 sg9o% 
总 正确 率 79% 


你 可 以 看 出 ， 预 测 outcome=0 的 预测 能 力 比 outcome=1 的 预测 能 力 好 得 多 。 


11.9 ”测试 组 的 混 清 算 阵 


试验 组 的 结果 与 训练 组 相似 。 如 果 测 试 和 训练 之 间 人 存在 任何 的 差异 ， 都 需要 仔细 观察 模型 ， 并 观察 数据 是 如 何 抽样 或 分 割 
的 : 


tConfusion matrix for Th9TL Yroup 

result <- sql("select outcome,correct, Count (*) as k, avg (totrows) as 
totrows from preds_tbl where grp=0 group by 1,2 order by 1,2") 
resultS$classify pct <- result$k/result$totrows 

display (result) 


» (1) Spark Jobs 


classify_pct 
0.12080536912751678 


0.5234899328859061 
0.1342281879194631 





计算 correct 总 和 的 方法 与 训练 组 的 方法 类 似 。 测 试 组 的 正确 结果 上 略 少 ， 这 与 训练 结果 相 比 是 正常 的 。 


测试 数据 组 正确 预测 总 和 : 


正确 预测 出 outcome=1 22o4 
正确 预测 出 outcome=0 520% 
总 正确 率 74% 


分 组 的 平均 误差 分 布 
另 一 个 可 以 判断 模型 与 数据 拟 合 得 怎么 样 的 根据 是 误差 的 分 布 。 在 这 个 分 析 中 ， 我 们 看 看 以 下 变量 的 四 种 组 合 的 误差 分 布 : 
. 结果 
“ 正确 预测 的 标志 
“ 通过 变量 etfbin 分 组 的 平均 误差 : 


result2 <- sgql("select outcome,correct,errbin, count (*) as k, avg (error) asS 
avgerr from preds_tbl group by 1,2,3 order by 1,2,3") 


给 数据 绘图 

在 查询 完成 后 ， 提 交 一 个 display 命 令 ， 以 便 可 以 执行 一 些 可 视 化 的 操作 : 

display (result2) 

1) display 运 行 后 ， 选 择 Plot Options 图 标 (左下 角 的 第 三 个 图 标 ) ， 然 后 从 绘图 菜单 中 选择 Stacked 条 形 图 绘制 。 
2) 将 k (计数 ) 抱 到 Values 框 中 。 


3) 拖 动 outcome 以 及 correct 到 series grouping 框 中 。 


4) 意 击 Apply 按 钮 以 刷新 可 人 秽 化 图 形 。 
. 从 下 图 中 可 以 看 出 ， 最 低 〈 最 好 ) 误差 是 非 糖 尿 病 患者 〈 第 1 一 5 栏 ，outcome=0，prediction=N) 。 


. 可 以 看 出 最 高 的 误差 出 现在 预测 出 糖尿 病 的 组 中 ， 但 实际 上 患者 没有 患 糖 尿 病 (第 6 一 11 


栏 ，outcome=0，ptediction=Y) 。 


一 个 关键 的 类 别 ， 未 被 预测 出 的 糖尿 病 (第 12 一 16 栏 ，outcome=1，ptediction=N) 也 有 一 个 相对 较 低 的 误差 : 


Customize Plot 


Keys: 
outcome | <id> 其 | 300.000 
250.000 


. 200.000 
Senes groupings: 


150.000 


100.000 
EN | | 
| | | | FT| | [| 


012345678910I1121314151617181920122 
<1d> 
@ Grouped 
@ Stacked 
@ 100% Stacked 


rooronon [Sm pony ope: [aaa 





在 这 个 图 中 ， 我 们 可 以 看 到 测试 和 训练 数据 的 平均 误差 ， 以 及 预测 正确 与 否 (outcome) 。 


设置 series grouping 框 可 以 显示 grp 和 outcome。 我 们 可 以 看 到 ， 测 试 数据 集中 outcome=1 和 outcome=0 的 平均 误差 有 
所 增加 。 


在 测量 测试 数据 时 ， 预 计 误差 会 有 轻微 的 增加 : 


#distribution of error bin 

result2 <- sgql("select outcome,grp,errbin, count (*) as k, avg (error) as 
avgerr from preds_tbl group by 1,2,3 order by 1,2,3") 

display (result2) 


USIOMIZE 


Senes groupings: 


gm X outcome X 


下 | 
0 | 呈 交 | | lhl 


0246 81012141618202224262830323436338 
<1d > 


@ Grouped 
@ Stacked 
@ 100% Stacked 


woronun[Sum papay vpe: [Ba 





伪 R< 


前 面 说 过 ， 一 个 真正 的 R< 指 标 不 是 逻辑 回归 的 标准 输出 统计 量 ， 但 是 可 以 使 用 其 他 适合 的 度量 方法 ， 比 如 McFadden 伪 R- 


square。 


用 代码 计算 伪 R<:; 首先 得 到 所 拟 合 的 模型 的 偏差 值 和 只 有 常数 项 的 模型 的 偏差 值 (null deviance) 。 模 型 的 偏差 值 衡量 带 
所 有 因 变 量 的 模型 中 的 偏 奉 。 只 有 常数 项 的 模型 的 偏差 值 仅 用 包含 的 截 距 来 度量 残 寿 。deviation/null.deivation 的 比例 越 小 ， 
表示 模型 效果 越 好 。 从 1 减 去 这 个 值 ， 就 得 到 了 一 个 伪 R<。 


所 有 这 些 指标 都 可 以 通过 model summary 对 象 获得 : 


#mcfadden pseudo Rsquare 


1-(model_summary$deviance/model_summarys$null.deviance) 


计算 结果 会 自动 输出 





均 方 根 误 震 (RMSE) 


我 们 已 经 根据 数据 计算 出 了 方差 ， 所 以 如 果 想 要 计算 均 方 根 误差 (RMSE) ， 只 需要 调用 3QL 残 可 以 得 到 每 个 结果 的 平均 方 


差 。 我 们 可 以 看 到 预测 outcome=1 (糖尿 病 ) 的 变化 比 预 测 outcome=0 的 变化 更 大 : 


result <- sgql ("select outcome,avg (errorsgr) from preds_tbl group by 1") 


display (result) 
b (5) Spark Jobs 
avglerrorsqr) 
0.09773349204439497 


0.24074876875407308 





11.10 ”在 Spark 以 外 绘 医 


如 果 你 希望 使 用 其 他 工具 绘制 数据 ， 可 以 首先 获取 Spark 数 据 的 样本 ， 然 后 使 用 其 他 软件 包 (如 ggplot) 进行 绘制 。 请 注 
意 ，Spark 的 某 些 版 本 可 能 已 经 集成 了 ggplot 并 可 以 在 Spark 内 部 使 用 。 但 是 这 个 例子 会 展示 另 一 个 例子 ， 说 明 如 何 提取 数据 ， 


以 便 其 他 包 可 以 使 用 。 


11.10.1 ”收集 结果 的 样本 
我 们 将 从 全 部 预测 中 提取 2% 作 为 样本 ， 然 后 输出 一 些 结果 。 请 注意 ，Spark 样 本 函数 与 之 前 使 用 的 基本 R 样 本 函数 有 不 同 的 
语法 。 也 可 以 将 其 指定 为 SparkR: : sample 以 确保 你 正在 调用 正确 的 函数 : 


local = collect (sample (preds, F, .02)) 


head (local) 


sample _ bin outcome pregnant glucose pressure triceps insulin 


-265 
-339 
-367 
-109 


1 。 
.28 75. 


75 83. 


.32 83. 


4 


48 .4 
67 .4 
12.2 
60.5 


15.1 
25.4 
31.6 
25.8 


55 .3 
86.0 
73.8 
84.8 


mass pedigree 


29. 
31. 
33 . 
35 


1 


日. 


298 


166 
.7901 
"801 


2 
4.21 87. 
1 
2 


-239 .OQ8 119 . 668 .4 33 .6 269 .4 39 . 

87.4 4 198.3 32. 
errorsqr correct errbin 

.O00207 Y 

“日 99538 

©11136 

.O02234 

"©88423 


"143568 


459 
.839 


| 6.89 


115., 
totrows 
12388600 0 
123866069 0 
12386669 09. 0 
0 
0 
9 


age label prediction grp 
16.8 0O.90144 
36. .O232 
26. .1055 
人 有。 .O473 
36 . ,2974 
38. .3789 


1238669 
123868609 
1238669 





11.10.2” 按 outcome 的 值 检查 分 布 


接 下 来 ， 可 以 运行 ggplot 以 图 形 方式 显示 按 outcome 的 值 分 组 的 误差 。 由 此 产生 的 箱 线 图 显示 ， 糖 尿 病 患者 的 第 三 个 四 分 
位 数 高 于 非 糖尿 病 患 者 。 这 表明 模型 在 预测 那些 真正 友 展 为 糖尿 病 的 患者 时 ， 预 测 误 舌 更 高 一 些 。 这 肯定 意味 着 模型 需要 改进 : 


libDrarvy (gaplLotz) 


ggplot (local, aes (factor (outcome),error)) + geom boxplot  () 





factor(outcome) 


11.11 创建 一 学 全 局 视图 


创建 全 局 视图 也 使 我 们 能 够 在 不 同 的 Databricks 笔 记 本 之 间 传 递 数 据 。 这 些 视 图 将 在 下 一 节 中 引用 。 使 用 %sqd| 这 个 魔术 命 


令 作 为 Databricks 笔 记 本 中 的 第 一 行 ， 表 示 这 些 是 SQL 语句 : 


SGl 
CREATE GLOBAL TEMPORARY VIEW df View AS SELECT * FROM df 


SGl 
CREATE GLOBAL TEMPORARY VIEW test_view AS SELECT * FROM test 


SGl 
CREATE GLOBAL TEMPORARY VIEW out_sd view AS SELECT * FROM out_sd 


SGql 
CREATE GLOBAL TEMPORARY VIEW sumdf_view AS SELECT * FROM sumdf 


11.11.1 ”用户 练习 


在 创建 视图 之 后 ， 使 用 SQL 读 取 计 数 ， 并 验证 忌 数 与 原始 数据 帧 生成 的 行 数 相符 : 


sql 

select count (* 
select count (* 
select count (* 
select count (* 


) from global temp.df_view union all 
) from global_ temp.test_view union all 
) from global_temp.sumdf_view union all 
) from global temp.out_sd_ view 


bt (2) Spark Jobs 


countli1) 
1238000 





11.11.2 聚 类 分 析 


本 节 将 演示 如 何 使 用 k 均 值 算 法 在 Spark 中 直接 实现 聚 类 分 析 。k 均 值 是 无 监督 学 习 的 一 种 形式 ， 是 探索 大 数据 的 一 个 非常 好 
的 开始 ， 尤 其 是 在 数据 量 大 而 且 目 标 变量 没有 明确 定义 的 情况 下 。 


11.11.3 ”准备 进行 分 析 的 数据 


我 们 将 首先 执行 一 些 数 据 准 备 ， 以 对 k 均 值 的 数据 进行 归 一 化 。 归 一 化 对 于 k 均 值 来 说 是 非常 有 必要 的 ， 因 为 它 使 各 个 变量 
不 受 不 同 尺度 的 影响 ， 所 以 k 均 值 聚 类 之 间 的 距离 测量 也 是 与 尺度 无 天 的 。 


回想 一 下 前 面 用 过 的 归 一 化 变量 的 一 种 方法 是 和 首先 获得 变量 的 均值 ， 然 后 除 以 标准 偏差 。 


11.11.4 ”从 全 局 视图 读 取 数据 


我 们 在 上 一 证 中 将 糖尿 病 数 据 集 另存 为 表格 和 全 局 视图 ， 现 在 可 以 使 用 SQL 读 取 它 。 首 先 读 取 训练 表 (temp.df_view) ， 
然后 读 取 测试 表 (test_view) 。 结 果 对 象 都 是 Spark 数 据 帧 。 


读 入 表 之 后 ， 输 出 行 数 。 如 果 你 希望 将 行 数 看 作 一 个 结果 ， 则 可 以 使 用 cat () 等 立 数 在 同一 行 里 输出 这 些 结果 : 


df = sgql("select age, 
DreonanLt, 
glucose, 
pressure, 
lnsulin, 
pedigree, 
triceps, 
mass 

from global_temp.df_view") 


test = sql("select age,, 
pregnant, 
glucose, 
pressure, 
lnsulin, 
pedigree, 
triceps, 
mass 

from global_temp.test_view") 


cat (count (df),count (test)),) 





11.11.5 ”输入 以 部 计 算 的 平均 值 和 标准 仿 帮 


为 了 归 一 化 数据 ， 需 要 计算 每 询 的 平均 值 和 标准 偏 差 。 如 果 在 纯粹 的 R 上 完成 该 操作 ， 有 很 多 方法 可 以 使 用 内 建 的 函数 和 包 
来 做 到 这 一 点 。 但 是 ， 使 用 SparkR 可 能 会 限制 使 用 通 音 的 方式 ， 并 授 使 我 们 以 不 同 的 方式 更 局 效 地 处 理 数据 。 


回想 一 下 ， 我 们 已 经 将 这 些 数 据 存储 在 一 个 汇 忌 对 象 (sumdf view 等 ) 中 ， 所 以 为 了 节省 一 些 处 理 时 间 ， 我 们 只 需 简 单 地 
读 取 汇总 统计 信息 ， 扣 免 重复 计算 。 


首先 ， 读 入 平均 值 行 ， 然 后 是 stddev 行 : 


means = sql("select age as age_mean, 
pregnant as pregnant_mean, 
glucose as glucose_mean, 
pressure as pressure_mean, 
insulin as insulin mean, 
pedigree as pedigree_ mean, 
triceps as triceps._mean, 
mass as mass_mean 

from global_ temp.sumdf view where summary='mean"'™") 

stds = sql("select age as ade_std， 
pregnant as pregnant_stqd, 
glucose as glucose,_stqd, 
pressure as pressure_std, 
insulin as insulin_stqd, 
pedigree as pedigree_stqd, 
triceps as triceps_stdqd, 
mass as mass_std 

from global_ temp.sumadaft view where summary="'stddev'™") 


11.11.6 ”连接 平均 值 和 训 





练 数据 的 标准 信者 


现在 可 以 使 用 crossJoin 把 汇 辟 平均 值 和 标准 偏 才 连 接 起 来 。 由 于 这 两 个 表格 具有 相同 的 行 数 ， 并 且 它 们 一 一 对 应 ， 因 此 不 
需要 键 值 。 


然后 将 汇总 数据 与 原始 数据 连接 起 来 。 结 果 对 象 是 一 个 新 的 Spark 数 据 帧 (df_means) ， 其 中 包 合 与 每 个 行 连接 的 所 有 变 
量 的 平均 值 和 标准 侦 委 : 


#join the means and standard deviations 
both <- crossJoin (means,stds) 

#join with the original data 

df means <—- crossJoin (df,both) 
nrow (df means) 





输出 结果 对 象 的 一 部 分 。 显 示 所 有 的 原始 变量 及 其 相应 的 平均 值 和 标准 偏差 : 


print (head (select (df_means, 
"age", "age_mean", "age_std", 
"mass", "mass mean", "mass_std" 


) ) ) 


age_mean age _Sstd mass mass_mea 

33 .291751 33 .24688541667883 11.75257647179343 23.91985 32.442846279285266 
26 .937762 33 .24688541667883 11.75257647179343 30.46985 32.442846279285266 
25 .336797 33 .24688541667883 11.75257647179343 25.78872 32.442846279285266 
9.11534]1 33 .24688541667883 11.75257647179343 44.91366 32.442846279285266 

16.8965365 33 .24688541667883 11.75257647179343 29.114697 32.442846279285266 


5 40.243232 33.24688541667883 11.75257647179343 29 .93316 32.442846279285266 
mass_std 
6.874555211563171 
6.874555211563171 
6.874555211563171 
4 6.874555211563171 
6.874555211563171 





11.11.7 ”连接 平均 值 和 测试 数据 的 标准 仿 帮 


与 前 面 的 代码 类 似 ， 将 平均 值 与 测试 数据 集 的 标准 偏 舌 连接 起 来 。 
检查 创建 的 行 数 。 如 果 你 想 查 看 当前 结果 ， 请 按 上 一 证 中 处 理 训练 数据 的 方法 输出 一 部 分 数据 : 


test means <- crossJoin (test,both) 
nrow (test means,) 





11.12 “ 归 一 化 数据 


我 们 现在 有 了 归 一 化 数据 需要 的 所 有 统计 数据 。 回 想 归 一 化 变量 x 的 公式 如 下 : 
为 了 实现 这 一 点 ， 将 所 需 的 计算 包 妆 到 一 个 六 数 中 ， 并 调用 它 处 理 训练 和 测试 数据 集 : 


: 调用 SpatrkR 的 selectExpr 表 达 式 ， 使 用 上 面 的 公式 计算 每 个 变量 的 归 一 化 结果 。 


. 另外 ， 创 建 一 个 新 的 用 old 结 尾 的 变 留 变 量 的 原始 值 。 在 测试 完 之 后 ， 你 应 该 删除 这 些 额 外 的 变量 以 节省 空间 ， 但 
在 调试 时 保留 它们 是 很 好 的 做 法 : 


normalize it <- function (x) 1{ 

selectExpr (x, 
"age as ageold","(age-age mean)/ age_std as age", 
"mass as massold","(mass-mass mean)/ mass_std as mass", 
"triceps as tricepsold", 
"(triceps-triceps_mean)/ triceps_std as tLe 
"pressure as pressureold", 
"(pressure-pressure mean)/ pressure_std as pressure", 
"pedigree as pedigreeold", 
"(pedigree-pedigree mean)/ pedigree_std as pedigree", 
"glucose as glucoseold", 


"(glucose-glucose_ mean)/ glucose_std as glucose", 
"pregnant as pregnantold", 


"(pregnant-pregnant_ mean)/ pregnant_std as pregnant", 
"nsulin as insulinold", 


"(jnsulin-insulin mean)/ insulin std as insulin" 


首先 ， 用 测试 数据 集 调用 这 个 锐 数 : 


test normal <—- normalize it (test means) 


接 下 来 ， 对 训练 数据 集 进行 归 一 化 : 


df normal < normalize it (df means) 


11.12.1 显示 输出 


显示 归 一 化 训练 数据 的 一 些 输 出 。 


head (df normal) 


从 下 面 的 输出 中 ， 你 会 注意 到 ， 归 一 化 值 的 幅度 在 -2 ~ +2 之 间 ， 均值 为 0。 任 何 接近 这 些 极 值 的 值 都 落 在 变量 的 极限 范围 附 
近 。 
例如 ， 观 测 值 4 显 示 标 准 化 年 龄 小 于 -2， 其 对 应 于 原始 年 龄 9， 同 时 ， 显 示 为 1.68 的 标准 化 体重 ， 对 应 于 44 的 原始 体重 。 
对 于 一 个 9 岁 的 孩子 来 说 ， 这 个 体重 是 一 个 上 限 。 通 过 查看 一 些 标准 化 值 之 间 的 天 系 ， 我 们 能 够 快速 确定 一 些 极端 的 数值 : 
b (3) Spark Jobs 
mass tricepsold triceps pressureold 


ageold age massold 


33.201751 
26.937762 
25 .336797 

9.115341 
16.895365 
49 .243232 


-6 .993329854 
-6 .612897469 
-6.673651436 
-2.052787712 
-1.398466149 
OQ.595813771 


23.91985 
30.46985 
25.78872 
44.01366 
29.11407 
29 .93316 


-1.2397891 
- 昌 .28766963 
-A.9679359 
1.6831360 
-OQ.4842170 
-A.36586773 


19 .89557 
22.31758 
17.54818 
34.93539 
15.98383 
15.41831 


-1.90582419 
-0.7767366 
-1.3112141 

0.5363971 
-1.5873794 
-1.5498966 


pressure pedigreeold 


-98.4862665 
-0.117924]1 
-0.5381479 
-0.6430063 
-~ 上.9868766 
9.8131598 


pregnant 
-1.58169613 
-0.8138319 
-1.2536288 
-1.1479873 
-0.6224774 
9.8668333 


OQ.1122226 
OQ.9477453 
QO.2829579 
日 .5199817 
QO.2984521 


pedigree 
-1.0861966 
1.4371804 
-0.579605558 
0.1452839 
-日 .5237616 


glucoseold 
73 .382692 
195.55782 
132 .95748 
111.93177 
83.44548 


glucose 
-1.5868256 
-OQ.5298630 
OQ.34064085 
-OQ.32904812 
-1.2562449 


OQ.58241860 0.3338248 


insulinold 
194.99869 
114.65476 
117.33043 
196 .38615 

55 .32411 
186.98714 


insulin 
-OQ.6064124 
-OQ.4907926 
-A.4614855 
-日 .5813578 
-1.14606391 
0.3014627 


157.58556 1.1792259 


pregnantold 
-1.480868085 
工 .19456766 
-0.37639825 
-0.02039326 
1.74893121 
6.76401329 


66.59577 
70.97826 
65 .89486 
64 .62639 
48 .44238 
82 .24149 





11.12.2 运行 kK 均值 模型 


数据 的 标准 化 完成 之 后 ， 束 可 以 继续 建 模 了 。 


SparkR 包 含 一 个 k 均 值 模型 ， 它 在 语法 上 与 基础 k 均 值 模型 非常 相似 。 不 过 它 还 有 一 个 额外 的 参数 InitMode， 可 以 在 其 中 指 
定 产生 随机 种 子 ， 以 生成 起 始 聚 类 。 从 SparkR 的 这 一 版 本 开始 ， 不 能 够 手动 设置 随机 数 种 子 。 因 此 ， 每 次 运行 模型 时 ， 生 成 的 
起 始 聚 类 可 能 会 略 有 不 同 。 

此 外 ， 可 以 指定 结果 变量 (葡萄糖) 以 及 要 聚 类 的 变量 ， 以 便 可 以 评估 聚 类 模型 的 拟 合 程度 。 
为 了 便于 说 明 ， 我 们 将 生成 一 个 包含 5 个 聚 类 的 模型 。 


使 用 summary (model) 显示 生成 预测 所 需 的 系数 以 及 每 个 聚 类 的 大 小 ， 如 下 所 示 : 


model <- spark.kmeans (df_normal, glucose ~ age + mass + triceps + pregnant, 


k = 5, initMode = "random") 
summary (model) 
从 大 小 可 以 看 出 ， 或 许 除 了 聚 类 1 以 外 ， 每 个 聚 类 的 尺寸 大 致 相等 : 


#here is the output from summary function 


$k 
[1] 5 
$coefficients 

age mass triceps pregnant 
1 0.974506 0.871064 1.096543 0.9835401 
-0.2056799 0 .9210947 DQ.bb66911 -0.432624 


+ UIDLoaeb U4904L92 U2448071 0.8973491 


a =] ,IIZ0L4d =0,.1553199 -UU L033125 =U .YU D220 
5 NU 一 .U0l9o06 =l.Z40L33 = ,22903638 


SSl1Ze 
5size[[1]] 
[1] 170000 


53Ssizel[[2]] 
[1] 276000 


?Sizel[[3]] 
[1] 298000 


size[[4]] 
[1] 274000 


ssize[[5]] 
[| 莹 U00 


11.12.3 ”将 模型 拟 合 到 





练 数据 


既然 已 经 有 了 系数 ， 那 么 你 实际 上 可 以 通过 代码 手动 预测 聚 类 成 员 。 如 果 你 企 生产 环境 中 执行 聚 类 分 配 ， 融 可 
个 操作 。 但 是 ， 使 用 预测 万 法 更 容易 一 后 。 


LE 
月 G65 


首先 根据 训练 数据 来 拟 合 模型 。 可 以 输出 一 些 拟 合 的 值 来 查看 生成 的 结果 。 最 后 一 列表 示 该 观测 值 的 聚 类 分 配 : 


fitted <- predict (model, df_normal) 
SparkR:::registerTempTable (fitted,"fitted tbl") 
head (fitted) 


要 执行 这 


h (3) Spark Jobs 


ageold 
33.201751 
26 .937762 
25 .336797 
9.115341 
16.805385 
40 .243232 


age 
-6 .993329854 
-6 .612897469 
-6.673651436 
~2.952787712 
-1.398466149 
OQ.595813771 


massold 
23.91985 
30.46985 
25.78872 
44.01366 
29.11407 
29 .933196 


mass tricepsold 


-1.2397891 
-9.2876963 
-~ 昌 .9679359 
1.6831360 
-A.4842170 
-A.3658773 


19 .869557 
22 .31758 
17.54818 
34.93539 
15.98383 
15.41831 


triceps pressureold 


-1.90582419 
-0.7767366 
-1.3112141 

0.5363971 
-1.5873794 
-1.5498966 


pressure pedigreeold 


-0.48029065 
-0.1179241 
-0.5381479 
-0.6430063 
-1.989687066 

0.8131598 


pregnant 
-1.58169613 
-0.8138319 
-1.2536288 
-1.1479873 
-0.6224774 
9.8668333 


OQ.1122226 
OQ.9477453 
QO.2829579 
OQ.5199817 
OQ.2984521 
0.5824160 


insulinold 


pedigree 
-1.0861966 
1.4371804 
-0.57605558 
0.1452839 
-0.5237616 
0.3338248 
insulin 


glucoseold 

73.38202 
195.55782 
132 .95748 
111.93177 

83.44548 
157.58556 


ELucose 
-1.5868256 
-OQ.52986309 

OQ.34064085 
-0Q.3204812 
-1.2562449 

1.1792259 


label prediction 


pregnantold 
-1.4808868085 
工 .196456766 
-0.37639825 
-0.02039326 
1.74893121 
6.76401329 


194.99869 
114.65479 
117.33043 
196 .38615 

55 .32411 
186.98714 


-AQ.6064124 
-A.4907926 
-A.4614855 
-OQ.5813578 
-1.1406391 

0.3014627 


-1.5868256 
-0.52986309 
9.3466465 
-9.3264812 
-1.2562449 
1.1792259 


66 .59577 
796 .97826 
65 .89486 
64 .62639 
48 .44238 
82 .24149 





11.12.4 ”将 模型 拟 合 天 测试 数据 


将 模型 拟 合 在 测试 数据 上 ， 并 输出 测试 数据 的 一 些 结果 : 


fitted test <- predict (model, test normal) 
SparkR:::registerTempTable (fitted test,"fitted tbl_test") 
head (fitted test) 


b (6) Spamrk Jobs 


ageold 
33 .96803 
32.27939 
36.56822 
47.25603 
38.87426 
38.18221 
pressure 
-0.3457796 
-1.1318950 
-0.4445586 
0.798327]1 
-0.8583318 
-0.4632242 
preenant 
-0.88484678 
-0.09363786 
-0.79677737 
9.96693614 
9.993975193 
-0.17971108 


age massold 


昌 .96l87131 25.76863 
- 昌 .68257799 31.69619 
0.28243450 38.92934 
1 .19251664 27.24542 
昌 .47933686 26.24679 
0.42044636 22.36163 


pedigreeold 


-0.29019075157 


0.7756602983 
8.948689812 
6.155334447 


-090.90016603494 


0.365889384 

insulinold 
175 .2965 
255 .2023 
223.1728 
146 .7867 
239 .4030 
142 .9769 


-6.9 
-0.1 
0.8 
mn PY 
-6.9 
-1 .4 
pedigree 
-2.0323926 
昌 .9172963 
-1.2798851 
-08.9559937 
-1.4299647 
- 昌 .32696936 
insulin 
0.17341508 
1.0486217 
9.6978636 
-0.1388513 
0.8755728 
-~ 昌 .1964382 


mass tricepsold 
17.95158 
31.44270 
35 .80103 
31。 
34.23827 
37.768650 


769453 
986242 
126340 
560381 
921892 
664538 
glucoseold 
146.27194 
113 .962193 
136 .18584 
81 .40550 
96.97689 
126 .42613 
label 
90.80757994 
-0.284678085 
0.27915780 
-1.32325727 
-0.81176945 
-9.904164289 


15899 


triceps pressureold 
-1.26686684 
0.24586080 
日 .7342718 
日 .21468669 
日 .5591432 
昌 .9538583 


68 .22192 
58 .了 1235 
er .927699 
82.06206 
62.02162 
66.896126 


glucose pregnantold 


0.80757994 
-0.284670085 
9.27915789 
-1.32325727 
-0.81176945 
-0.041642089 


prediction 


0.8654326 
3.5297374 
1.1619962 
4.0704518 
4.1809552 
3.2398957 





11.12.5 ”以 图 形 方式 显示 聚 类 分 配 


双 变 量 聚 类 图 是 一 种 有 用 的 方法 ， 有 助 于 得 看 聚 类 


分 配 如 何 与 两 个 变量 的 x-y 图 相关 联 。 每 个 聚 类 都 用 不 同 的 颜色 绘制 。 
在 Databricks 中 ， 可 以 轻松 地 做 到 这 一 点 。 


下 移 ， 和 在 下 面 的 代码 中 ， 首 先 提取 了 一 个 1000 行 的 样本 。 我 希 


望 样 本 足够 小 ， 使 得 


tmp <—- head(sample (fitted, F, .01) 
display (tmp) 


-L000) 


#show cluster assignment by 2 variable matrix 
接 下 来 ， 切 换 到 绘图 对 话 框 ， 打 开 Customize Plot 对 话 框 。 并 执行 以 下 的 图 形 设置 步 又: 
1) 将 Display Type 设 为 Scatter plot。 

2) 将 prediction 拖 蝶 到 Keys 框 中。 

3) 将 所 有 可 能 的 x-y 绘 图 变量 拖 岛 到 Values 框 中 。 


4) 如 果 将 LOESS 线 添加 到 图 中 ， 则 可 以 挑选 出 一 些 可 以 通过 两 个 


变量 的 组 合 轻松 分 离 的 聚 类 。 


单 击 Apply 按 钮 更 新 图 形 界面 。 在 下 面 的 图 中 ， 在 年 龄 (age) 和 怀孕 (pregnant) 这 两 个 变量 的 交点 处 ， 上 行 趋势 线 表 示 
年 龄 和 怀孕 月 份 的 变化 市 来 了 明显 的 聚 类 分 离 : 


Customize Plot 


All fields: Keys: 
ageold predicion x 
age 
massold 
mass Series groupings: 
tricepsold 





triceps 
pressureold 
2.00 


和 ER 2 
‘pressure x 


pedigree 
qlucoseold bt 











Show LOESS 


Bandwidth :0.58  _- 
(| 


Aggregation:| SUM Display type:| Scatterplot "| 














通过 Pairs 了 销 数 绘图 
为 了 得 到 更 大 更 详细 的 图 ， 还 可 以 使 用 pairs 轴 数 来 绘制 所 需 变量 的 散 点 图 矩 咱 ， 使 用 颜色 来 区 分 各 个 聚 类 。 


我 们 可 以 看 到 ， 人 在 某 些 情况 下 ， 聚 类 与 聚 类 之 间 是 分 开 的 ， 而 在 另 一 些 情况 下 ， 则 可 能 仓 企 或 多 或 少 的 重 堵 : 


PalLrs (tmp[lc("ade"，"mass"， "pressure", "Predgdnant") ] ， 
col=tmpsprediction) 


pregnant 





为 了 开始 分 析 聚 类 的 组 成 ， 可 以 先 查 看 一 下 变量 是 如 何 沿 每 个 轴 绘 制 的 。 


例如 ， 红 色 岂 聚 类 显示 了 年 长 的 糖尿 病 患者 与 怀孕 月 数 之 间 的 关系 。 这 似乎 表明 一 个 阳性 的 糖尿 病状 况 。 为 了 更 稳 受 ， 可 以 
再 查看 一 下 体重 ， 也 可 以 看 出 ， 红 色 聚 类 中 所 有 其 他 变量 的 值 都 较 高 。 
另 一 方面 ， 压 力 与 体重 之 间 的 关系 还 不 清楚 ， 可 能 是 由 于 其 他 因素 也 在 起 作用 ， 因 此 在 二 维 图 中 不 能 明显 分 状 


[1] 读者 请 参见 本 书 PDF 彩 图 。 一 编者 注 


11.13 ”通过 聚 类 的 平均 值 来 描述 它们 的 特征 


男 一 种 查看 聚 类 的 方法 是 直接 查看 它们 的 平均 值 。 可 以 直接 使 用 SQL 来 做 到 这 一 点 : 


AAA 


首先， 查看 任何 标准 化 值 >1 或 <-1 的 变量 ， 或 该 变量 中 的 最 高 绝对 值 。 这 将 为 你 提供 一 些 线索 ， 有 助 于 明确 如 何 开 始 对 聚 


再 看 看 系数 的 幅度 和 标志 。 具 有 较 大 绝对 值 的 系数 ， 可 以 表明 该 变量 对 该 特定 聚 类 有 重要 的 影响 。 变 量 有 正 值 和 负 值 ， 这 
一 点 在 表征 或 命名 聚 类 的 时 候 很 重要 。 


tmp_agg < SparkR::sql("SELECT prediction, mean (age), 
mean (triceps), 

mean (pregnant),mean (pressure),mean (insulin), 

mean (glucose), 

mean (pedigree) from fitted tbl group by 1") 

head (tmp_agg) 


Pr 


» (7) Spark Jobs 


prediction ave(age) avg(triceps) avg(pregnant) count(age) 
1 -0O.28056799 QO.6669118 -0.4326240 276000 
3 -1.0926131 -0.1833185 -0.9076226 274000 
4 -0.2453393 -1.2575343 -0.3066965 2200008 
2 0.7708876 -0.2498318 0.8934643 298006 
OQ 90.974580608 1.90965432 0.983540]1 17696096 





通过 对 产生 的 5 个 聚 类 一 一 观察 ， 可 以 将 聚 类 2 归 类 为 由 较 低 怀孕 率 的 年 轻 人 组 成 的 群 组 ， 因 为 在 该 聚 类 中 ， 这 两 个 变量 的 
平均 值 都 接近 -1。 请 记 住 ， 这 些 都 是 标准 化 过 的 值 ， 所 以 才能 比较 它们 ， 并 使 用 + 1/-1 标 准 偶 差 水平 作为 国 值 。 所 以 ， 以 此 作为 
国 值 ， 也 可 以 认为 聚 类 3 可 能 是 体重 较 低 的 人 ， 因 为 三 头 肌 的 均值 也 接近 -1。 如 果 在 一 个 聚 类 中 某 变 量 的 均值 接近 于 0， 则 意味 
着 该 变量 对 该 聚 类 的 影响 可 以 忽略 不 计 。 


计算 测试 数据 的 平均 值 


这 个 数据 集 的 结果 与 训练 数据 相似 : 


tmp_agg <- SparkR::sql ("SELECT prediction, mean(age), mean (triceps), 
mean (pregnant),mean (pressure),mean (insulin),mean (glucose),mean (pedigree) 
from fitted tbl_ test group by 1") 

head (tmp_agg) 


b (7) Spark Jobs 


prediction ave(age) avg(triceps) avg(pregnant) avg(pressure) avg(insulLin) 
1 -0.1460594 日 . 7938619 -日 .4245266 日 .764655 ©.4348044 
3 -1.2141664 -0.2855458 -0.8130297 -日 .5556164 -OQ.2377346 
4 -0.1562988 -1.2265138 -0.2037147 -0.36554082 -0O.2354299 
2 090.7498264 -日 .2324546 日 .5918927 日 .2299495 QO.3695036 


OQ 090.62923]12 1.909599987 0.8521112 日 .2851198 OQ.5954573 
avg(gLucose) ave(pedigree) 
090.10083870 QO.29937691 
-0.51769496 OQ.13754498 
-9.16160085 OQ.194609315 
0.09277286 -6 .96523912 
0.37704262 OQ.45119753 





11.14 ”本 童 小 结 


在 本 章 中 ， 我们 在 SQL 的 基础 之 上 ， 开 始 了 解 Spark 的 机 器 学 习 功 能 。 我 们 使 用 前 面 用 过 的 糖尿 病 数 据 集 ， 展 示 了 如 何 执行 
回归 和 k 均 值 聚 类 。 我 们 构建 了 训练 和 测试 数据 集 ， 并 学 习 了 如 何 使 用 模拟 方法 ， 在 完美 的 数据 中 引入 一 些 变 化 。 我 们 还 介绍 
很 多 Databricks 可 视 化 方法 ， 以 及 一 些 使 用 collect () 函数 将 数据 导出 到 base R 中 的 方法 ， 以 便 可 以 使 用 ggplot 来 做 可 视 化 。 
我 们 还 学 习 了 如 何 使 用 代码 手动 执行 一 些 回归 诊断 。 然 后 学 习 了 如 何 通过 代码 来 标准 化 数据 集 ， 并 使 用 标准 化 的 结果 来 演示 使 用 
Spark 的 k 均 值 算法 示例 。 最 后 ,我们 查看 了 聚 类 结果 ， 并 对 聚 类 有 一 些 简单 的 理解 。 


第 12 章 ”Spark 模 型 : 基于 规则 的 学 习 


在 本 章 中 ， 我 们 将 学 习 如 何 实现 基于 规则 的 算法 。 这 些 算法 的 具体 实现 方法 取决 于 你 正在 使 用 的 语言 接口 ， 以 及 正在 运行 的 
Spark 版 本 。 


对 于 Spark 2.0， 唯 一 支持 基于 规则 的 决策 树 的 语言 是 Scala 和 和 Python。 因 此 ， 为 了 演示 如 何 直接 在 Spark 中 构建 决策 规则 ， 
我 们 将 举 一 个 使 用 Python 决 定 被 搜 身 规则 的 例子 。 


对 于 其 他 语言 (如 R 语 言 ) ， 目 前 还 不 能 直接 在 Spark 数 据 帧 中 运行 决策 树 算法 ;不 过 ， 有 其 他 的 方法 可 以 用 于 获得 准确 的 
树 。 


我 们 将 展示 如 何 首 先 从 Spark 中 提取 样本 ， 将 样本 下 载 到 基础 R 并 且 运 行 常 用 的 工具 ， 如 rpart。 通 常 ， 一 个 大 数据 集 包 含 的 
数据 远 远 多 于 构建 一 棵 决策 树 所 需要 的 数据 ， 因 此 合理 的 万 法 是 从 大 数据 源 中 适当 取样 ， 从 Spark 提 取 数 据 到 R， 然 后 运行 标准 
工具 。 


我 们 将 介绍 One Rule (OneR) 包 ， 用 于 查看 每 个 单 变 量 如 何 预测 结果 。OneR 的 思想 是 “ 少 即 是 多 ”， 我 们 将 展示 OneR 
如 何 优 化 对 数值 的 分 级 ， 以 及 如 何 决 定 项 部 预测 因子 使 用 的 是 什么 决策 树 规则 。 也 可 以 使 用 OneR 包 进行 特征 选择 。 


12.1 加 载 盘 吾 〈 俘 止 和 搜 身 ) 数据 集 


我 们 还 会 使 用 上 一 章 构 建 的 糖尿 病 数据 集 。 对 于 某 些 其 他 决策 树 的 例子 ,我们 需要 加 载 盘 查 数据 集 。 可 以 通过 以 下 链接 获得 
该 数 据 集 : http://www1.nyc.gov/site/nypd/stats/repo rts-analysis 人 stopfrisk.page。 


选择 2015 CSV zip 文 件 ， 将 文件 解压 至 项 目 目录 ， 例 如 C: /PracticalPredictiveAnalytics/Data， 将 文件 命名 为 
2015 sqf csv。 


将 CSV 文 件 导 入 Databricks 


Databricks 包 含 一 个 简单 的 用 户 接 口 ， 该 接口 能 让 你 将 文件 加 载 至 Databricks HDFS 文 件 系统 。 或 者 ， 你 可 以 将 文件 直接 加 
载 至 亚马逊 云 服 务 (Amazon Web Services，AWS) ， 通 过 Databricks API 直 接 读 取 该 文件 。 


1) 切换 到 Databricks 应 用 ， 选 择 Tables， 然 后 选择 Data Import。 注 意 在 某 些 Data-bricks 版 本 中 ， 以 上 操作 集成 在 Data 
菜单 中 : 选择 Table， 然 后 点 击 +。 


2) 可 能 会 提示 你 创建 一 个 新 聚 类 。 如 果 遇 到 该 提示 ， 首 先 按照 第 9 章 中 创建 新 聚 类 的 步骤 来 做 。 
3) 将 文件 名 为 2015 sqf_csv 的 文件 从 PracticalPredictiveAnalytics 目 录 拖 蝶 到 数据 导入 框 ， 如 下 所 示 : 


(3) Create Table 


databncks 


Data Import 


Data Source File 


File(s) 


201 SM 


72 MB 
Remove file 


Uploaded to DBFS @ /FileStore/tables/3r890mly14980297381379/28015_sqf_csv.csv 


4) 单 击 Preview Table。 





5) 在 Table name 中 输入 stopfrisk。 


6) 观察 变量 如 何 赋值 (它们 都 被 赋值 为 字符 串 ) ; 但 是 不 要 改变 任何 属性 。 只 需 单 击 Create Table (左边 的 蓝 色 按钮 ) : 


Create Table 


Ge ls 
Mewe __ 


CSV MM datestop 
1012015 
1152015 


Column Delimiter 


国 First rowis header 1292015 
1292015 

[1 和 El [ 
1292015 


1292015 





12.2 ” 读 取 表格 


完成 上 述 步骤 之 后 ,创建 好 的 表格 将 在 Databricks 系 统 中 注册 ， 并 且 将 跨 会 话 持续 保留 ， 即 不 需要 在 每 一 次 登录 时 都 重新 加 


载 数据 。 


12.2.1 运行 第 一 个 单元 

首先 从 运行 第 一 个 单元 开始 (单元 也 称 为 代码 块 ) ， 该 代码 块 仅仅 获取 一 年 的 记录 数目 。 可 以 从 本 书 的 配套 网 站 下 载 本 章 的 
代码 。 或 者 也 可 以 将 以 下 每 个 小 忆 的 代码 复制 到 一 个 新 的 单元 /代码 块 ， 并 创建 你 自己 的 笔记 本 。 

盘查 数据 集 已 经 导入 ， 并 且 已 经 在 表 中 注册 ， 我 们 可 以 开始 使 用 SQL 来 读 取 一 些 计数 ， 以 便 查 看 文件 的 大 小 : 

#embed all SQL within the sql() function 


yr <—- sqgql ("SELECT year,frisked,count(*) as year_cnt FROM stopfrisk group by 
year, frisked") 
display (yr) 


几 秒 之 后 ， 输 出 将 显示 一 个 简单 的 格式 化 表格 。 使 用 year_cnt 列 进行 简单 的 计算 ， 显示 在 2015 年 有 68% 的 人 被 搜 身 : 


» (5) Spark Jobs 

















12.2.2 ”将 整个 文件 读 取 到 内 存 中 

现在 我 们 已 经 有 了 一 些 汇总 计数 ， 对 将 要 看 到 的 数据 内 容 有 了 一 定 的 了 解 。 因 此 ， 我 们 通过 SQL 将 整个 文件 读 取 到 一 个 
spark 数 据 帧 ， 并 且 输 出 第 一 条 记录 (如 果 你 原意， 也 可 以 输出 更 多 ) 。 

只 需要 碍 看 第 一 条 记录 或 者 第 一 批 记 录 ， 融 可 以 看 到 一 些 混 人 在 一 起 的 yes/no 二 元 标签， 以 及 一 些 数值 型 变量 : 


dt = 站 可 由 EC ™* EROM SEOELELLSKR |】 
head (df,1) 


» (1) Spark Jobs 


year pct Ser_num datestop timestop recstat inout trhsloc perobs crimsusp 

1 2915 61 18 19129015 315 l 0 P 2.90 FELONY 
perstop typeofid explnstp othpers arstmade arstoffn sumissue sumoffen 

| 19 V Y N N N 
compyear comppct offunif officrid frisked searched contrabn adtlrept pistol 

1 Q Q N 入 N N N N 
riflshot asltweap knifcuti machgun othrweap pf_hands pf wall pf_grnd pf_drwep 

1 N N N N N N N N N 
pf_ptwep pf_baton pf_hcuff pf_pepsp pf_other radio ac_rept ac_inves rf_vcrim 

1 N N N N N N 区 N N 
rf_othsw ac_proxm rf_attir cs_objcs cs_descr cs_casng cs_lkout rf_vcact 

1 N Y N N Y Y N N 
cs_cloth cs_drgtr ac_evasyv ac_assoc cs_furtyv rf_rfcmp ac_cgdir rf_verbl 

1 N N N N N Y N N 
cs_vcrim cs_bulge cs_other ac_incid ac_ time rf_knowl ac_stsnd ac_other 

1 N N N Y Y N N N 
sb_hdobj sb_outln sb_admis sb_other repcmd revcmd rf_furt rf_bulg offverb 

1 N N N N 186 186 N N V 
offshld forceuse sex race dob age ht_feet ht_inch weight haircolr eyecoLor 

1 a M W 33 5 199 BR BR 
build othfeatr addrtyp rescode premtype premname addrnum stname stinter 

1 M L STREET AVENUE W 

crossst aptnum city state zip addrpct sector beat post xcoord 

1 EAST 28 STREET BROOKLYN 61 E 了 1999991 
ycoord dettypCM lineCM detailCM 

1 156314 CM 1 14 


12.2.3 ”将 变量 转化 为 整数 


如 果 在 数据 帧 中 对 变量 运行 str () 函数 ， 你 会 看 到 它们 都 是 chr (character) 类 型 的 变量 。 我 们 还 会 在 导入 文件 对 话 框 中 
看 到 这 个 现象 


号 上 上 下 江 GL IJ 


"SparkDataFrame :; 112 variables: 
$ Year chr “2915 “2915 “2915 “ 2915 “2915 ”“ 2915 
$ pct chr “61” "22” 298” 29” "28” 29” 


$ ser_num chr "18 5 "96 "38 41 “39” 
$ datestop: chr "198126]15™” “1152915” “1292915”“1292915” “1292915” "12928]15™ 
$ timestop: chr "315"” "1747"” "1745"” "1745" "1745" "1745" 





因为 我 们 想 要 的 是 整 型 变量 ， 所 以 使 用 cast () 函数 对 这 些 变量 做 一 尝 变 换 。 同 时 ， 使 用 trim () 函数 清理 一 些 首尾 空格 符 


一 
号， 


dfs$sage <- cast (trim(df$age),'integer') 
df$sperstop <- cast (df$perstop,'integer') 
dfsperobs <- cast (df$perobs, 'integer') 
dfs$sser_num <- cast (df$ser_ num, 'integer') 
dfS$sdatestop <- cast (df$datestop,'integer') 
dfs$stimestop <- cast (df$stimestop,'integer') 
dfs$5repcmd <- cast (df$5repcmd, 'integer') 
dfS$5revcecmd <- cast (df$5revcecmd, 'integer') 
dfscompyear <- cast (df$compyear, 'integer') 
dtsGoOmDpet 和 一 Cast (dt $ecomDpet; 这 七 名 可 名 ”| 
QqfSht_ feet <- cast (dfs$sht_feet,'integer') 
dfoht .neh x cast tdfsnt neh, "Lnteger") 


df$height <- dfs$ht_feet*12+dfS$ht_inch 
df$5weight <- cast (df$5weight,'integer') 


ste tt] 


在 代码 末尾 运行 str () 函数 ， 以 验证 这 些 变量 都 已 经 转换 为 整数 。 你 会 看 人 到， 同时 还 创建 了 一 个 额外 的 变量 (height) ， 
该 变量 通过 feet*12+inches 来 计算 。 对 于 我 们 的 目的 来 说 ， 没 有 必要 为 该 变量 同时 保留 feet 和 inches 两 个 单位 。 


以 下 是 str () 函数 输出 的 第 一 页 。 注 意 ， 变 量 ser num、datestop、timestop、perobs 以 及 perstop 都 已 映射 为 整数 。 


"9%parkbDataFrame : 113 variables: 

$ year chr “28915™” “ 2915” “2915” 2915” “2915” "2815™ 

pct chr “6]1™ "22™ "29” "29” "29” "20" 

ser_num int 18 5 36 38 41 39 

datestop: int 1912915 1152915 1292915 1292915 1292915 1292915 
timestop: Tint 315 1747 1745 1745 1745 1745 

recstat chnF 1 A dL 1 "1 

inout chr “O™ “vO™ "0” "0” “OO™ ”07” 

trhsloc = | We si i cid i i 

perobs int 211111 

crimsusp: chr “FELONY™ “FELONY™ “MISD™ “MIDS™ “MISD™ “MISD™ 
perstop : int 19 4 16 16 16 16 


$ 
$ 
$ 
$ 
$ 
$ 
$ 
$ 
$ 
$ 





12.3” 友 现 重 要 特征 


现在 介绍 OneR 包 来 友 现 数据 集中 的 重要 特征 。OneR 包 会 对 每 一 个 特征 产生 一 个 单一 决策 规则 ， 并 按 准 确 率 进 行 排序 。 准 
确 率 的 定义 是 将 结果 进行 正确 划分 的 概率 ， 可 以 用 混合 矩阵 或 者 误差 矩阵 来 表示 ， 正 如 我 们 在 前 几 章 讲 过 的 。OneR 包 还 有 一 些 
非 党 不错 的 功能 ， 如 优化 对 整 型 变量 分 级 的 能 力 ， 以 选 出 最 佳 预测 因子 。 


因为 OneR 包 不 在 Spark 环 境 运 行 ， 所 以 我 们 首先 需要 使 用 collect () 和 sample () 函数 ， 对 Spark 数 据 帧 取 95% 的 样本 ， 


然后 使 用 collect () 国 数 将 这 些 样 本 移 到 本 地 R 数 据 帧 。 


虽然 Spark 数 据 帧 足够 小 ， 不 需要 抽样 也 可 以 用 来 演示 这 个 例子 ， 但 是 重要 的 是 知道 如 何 从 一 个 数据 帧 中 进行 抽样 。 如 果 你 
打算 使 用 Spark， 那 么 你 的 数据 帧 可 能 会 很 大 ， 就 不 能 使 用 collect () 函数 将 整个 数据 帧 带 入 一 个 R 的 本 地 实例 。 对 于 非常 庞大 
的 Spark 表 格 ， 你 可 能 需要 使 用 5% ~ 10% 的 百分比 抽样 ， 作 为 初始 分 析 时 用 。 不 过 ， 对 于 我 们 的 示例 ， 使 用 按照 95% 的 抽样 比 
获取 的 数据 ， 因 为 2015 盘 查 数 据 相对 来 说 非常 小 。 但 是 ， 如 果 你 已 经 导入 了 所 有 年 份 的 数据 并 且 将 这 些 数据 链接 到 了 一 个 大 的 
Spark 数 据 帧 ， 可 能 需要 考虑 将 抽样 比 降 低 到 一 个 合理 的 数字 。 人 否则 ， 你 可 能 因为 要 处 理 的 行 数 超过 R 的 最 大 行 数 限制 而 提前 结 
束 。 


还 要 注意 的 是 ，OneR 包 目前 不 能 用 作 上 默认 安装 包 。 不 过 你 可 以 使 用 devtools 来 安装 cran 中 的 最 新 版 本 : 


devtools: :install_github ("cran/OneR") 
library (OneR) 


#bring 95% of the rows from the Spark dataframe named "df" jinto a base R 
dataframe named "local" 


local = collect (sample (df, F, .95)) 


12.3.1 ”消除 级 别 过 多 的 因子 


由 于 数据 集 的 有 些 特 征 有 非常 细 的 粒度 ， 如 邮政 编码 变量 、GPS 定 位 变量 ,我 们 首先 进行 降 维 处 理 ， 只 选择 具有 20 个 以 下 
级 别 的 特征 /变量 。 这 样 做 有 助 于 在 随后 计算 模型 时 ， 不 需要 担心 会 因 某 些 遍 维度 的 变量 而 导致 友 生 过 拟 合 问题 。 不 过 ，20 这 个 
数字 也 不 是 固定 不 变 的 ; 你 可 以 更 改 默 认 值 ， 并 且 保 留 你 认为 模型 中 需要 的 变量 ,而 不 必 考 虑 级 别 问题 。 


OneR 有 一 个 名 为 maxlevels () 的 函数 可 以 实现 这 个 消除 功能 。 任 何 具有 超过 该 级 别 量 的 变量 都 不 会 包含 在 输出 中 。 


运行 该 逆 数 之 后 ， 使 用 str () 消 数 确认 变量 已 经 消除 。 最 初 我 们 有 113 个 变量 ,现在 下 降 到 97 个 。 某 些 变 量 已 经 被 消除 ， 如 
x 和 y 坐 标 ， 因 为 GPS 坐 标 显 然 具 有 20 个 以 上 的 级 别 : 
frisked df <- maxlevels (local, maxlevels = 20, na.omit = TRUE) 
#check the output to see if the number of levels were reduced 


str(frisked df) 


观察 输出 的 前 3 行 ， 显 示 变 量 的 数量 从 113 减 少 到 97: 


'data.frame': 21359 obs. of 97 variables: 


$ year : chr "2915™" "2915" "2815™" "2915" 
$ ser_num : int 18 5 38 41 39 122 42 9 141 2 ... 





12.3.2 ”测试 和 | 





练 数据 集 


当然 ， 我 们 需要 将 数据 划分 成 测试 数据 集 和 训练 数据 集 。 前 面 已 经 介绍 过 很 多 分 离 测 试 和 训练 数据 的 方法 。 接 下 来 介绍 的 这 
种 划分 方法 要 划分 占 比 80% 的 训练 数据 以 及 占 比 20% 的 测试 数据 : 


:首先 从 训练 数据 集中 提取 索引 号 。 我 们 使 用 base: : sample 函 数 来 实现 。 
: 用 这 些 索 引号 建立 训练 数据 集 。 
* 用 没有 包含 在 这 些 索引 中 的 行 构建 测试 数据 集 。 


一 旦 得 到 训练 数据 的 率 引 号 ， 我 们 将 使 用 OneR 包 中 的 optbin 函 数 ， 优 化 划分 出 一 个 数值 型 变量 。 基 于 该 变量 ， 能 够 对 是 否 
搜 身 预测 出 一 个 Yes 或 No 的 输出 结果 。 我 们 已 经 介绍 过 天 于 决策 树 的 这 类 优化 划分 。 以 下 使 用 optbin 的 代码 设计 是 ， 对 于 所 有 
的 数值 型 变量 找 出 最 佳 划 分 点 ， 由 指定 的 frisked ~ 值 代表 。 


set.seed(123) 

train.index <- base::sample (il:base: :nrow (frisked_df), 0.80 * 
base: :nrow (frisked df)) 

train_data <- optbin(frisked df[train.index,|],frisked~.) 
test_data <- optbin( frisked df[-train.index,|],frisked~.) 


#after partitioning, run a summary of the first 15 rows to see what the 
output looks like 


summary (train_datal[1l:15]) 
year ser_num datestop 


29152:16934 (-9.523,265] :19299 (le+96,6.13e+g96] :8689 
(265,1.53e+93]: 5735 (6.13e+96,1.23e+97] :7345 


timestop recstat inout trhsloc perobs 
(-2.36,1.37e+03] :6410 : 2043 12 055 H: 2387 (-9.36,2.74] :12679 


(1.37et+93,2.36e+93] :9624 1:19454 0:13979 P:13999 (2.74,369] : 3364 
9: 8 1: 638 
As S52 
perstop typeofid explnstp othpers arstmade sumissue compyear 
(9.911,8.1] :9942 0: 398 N: 2 N:11285 N:13211 N:15591 9:16934 
(8.1,90.1] :6992 P:9279 Y:169014 Y: 4749 Ys 2823 Y: 443 
R: 454 
V:5993 





12.3.3 ”检查 分 级 数据 


在 之 前 的 输出 中 ， 我 们 观察 到 ， 每 个 数值 变量 已 经 被 转换 为 两 个 分 类 级 别 中 的 一 个 。 两 个 分 级 类 别 的 开始 和 结束 的 范围 由 
(，) 来 表明 。 辨 识 这 两 个 分 级 类 别 并 不 难 ， 因 为 汇总 中 使 用 一 个 开始 (和 一 个 结束 ] 来 显示 它们 。 


然后 使 用 专用 Databricks 的 display 命 令 来 查看 一 下 train_dataset 数 据 集 : 


display (train_data) 


» (2) Spark Jobs 


ear | ser_num | datestop | timestop | recstat inout | trhsloc perobs | perstop typeofid | explnstp | othpers 
015 (-0.523,265] (1e+06,6.13e+06] (1.37e+03,2.36e+03] A 
015 (-0.523,265] (6.13e+06,1.23e+07] (1.37e+03,2.36e+03] 1 
015 (265,1.53e+03] (1e+06,6.13e+06] (-2.36,1.37e+03] 1 
015 (-0.523,265] (6.13e+06,1.23e+07] (1.37e+03,2.36e+03] 


(-0.36,2.74] (0.911.8.1] P 
(-0.36,2.74] (0.911.8.1 V 
(2.74,360] (8.1,90.1]  P 
(-0.36,2.74] (0.911.8.1] V 
015 (-0.523,265] | (6.13e+06,1.23e+07] (1.37e+03.2.36e+03] 1 P 
015 (-0.523,265] |(1e+06,6.13e+06] '(-2.36,1.37e+03] “1 P 
015 (-0.523,265] |(1e+06,6.13e+06]  '(-2.36,1.37e+03] “1 P 
V 


015 (-0.523,265] (6.13e+06,1.23e+07] (-2.36,1.37e+03] 1 
< 
Showing the first 1000 rows. 


51>] (+|- 


(-0.36,2.74] (8.1.90.1] 
(-0.36,2.74] (0.911.8.1] 
(2.74,360] (0.911.8.1] 
(2.74,360] (8.1.90.1] 


人 耻 | 中 | 工 | 工 | 了 | 了 | 了 
< < < < < < < < 








12.4 运行 OneR 模 型 


我 们 应 该 已 经 熟悉 OneR 模 型 的 语法 。 结 果 变 量 frisked 在 公式 的 ( ~ ) 符号 左边 指定 ， 特 征 在 方程 右边 指定 。 你 可 能 记得 ， 
元 字符 (.) 指定 了 所 有 被 用 作 预 测 因 子 的 特征 : 


model <—- OneR(train data, frisked ~ ., Verbose = TRUE) 
summary (model) 


吓 
qd 四 
H+ 
ly 
时 
/人 
由 
开 
由 
uj 


(部 分 ) 汇总 的 输出 显示 了 准确 率 ， 该 准确 率 基 于 只 选择 一 个 变量 作为 预测 因子 和 该 变量 的 分 类 率 


做 了 标记 。 


前 7 个 变量 的 属性 和 准确 率 指标 如 下 所 示 。 请 注意 ， 准 确 率 达 到 67.61% 后 就 没 再 下 降 : 


Attribute Accuracy 


SexXx 68.56% 
eyecolor 67.68% 
haircolr 67.62% 
year bf1.61% 
ser num Gf.61% 
datestop 67.61% 
timestop 67.61% 


在 日 志 中 显示 了 对 函数 的 调用 ， 也 显示 了 决策 树 规则 。 





12.4.1 理解 输出 
来 目 汇 忌 的 输出 非常 有 助 于 理解 每 一 个 变量 作为 独立 预测 因子 的 重要 程度 。 所 有 准确 率 度 量 的 泡 围 都 在 67.61% ~ 68.56% 之 
间 ， 没 有 一 个 单 变 量 比 其 他 变量 在 预测 被 搜 身 与 人 否 方 面 明显 有 优势 。 


不 过 ,排名 第 一 的 变量 是 sex 性 别 ， 它 的 准确 率 是 68.56%。 那 么 ， 将 结果 分 类 为 被 搜 身 的 或 者 没 被 搜 身 的 一 个 信 单 规则 是 : 
如 果 性 别 是 男性 或 者 未 知 ， 那 么 在 68.56% 的 时 候 预 测 结 果 是 正确 的 。 


Call: 
OneR(data = train_data, formula = frisked ~ ., verbose = TRUE) 


Rules: 

If sex = FF then frisked = N 
If sex = M then frisked = Y 
If sex = Z then frisked = Y 
Accuracy: 


11728 of 17195 instances classified correctly (68.56%) 


Contingency table: 


sex 
frisked F M Z Sum 
N 大 668 4822 5 5540 

于 595 友 19968 * 92 11565 


Sum 1173 15799 142 17195 


Maximum in each column’: “大 


Pearson's Chi-squared test: 
X-squared = 348.29, df = 2, p-value < 2.2e-16 


这 反映 在 以 下 两 个 人 工 计算 的 交叉 表 中 ， 星 号 (*) 表示 一 个 正确 的 分 类 (背景 色 为 绿色 ) 。 我 手动 加 入 了 第 二 个 列 联 表 ， 
根据 输出 所 提供 的 原始 计数 计算 了 百分比 。 


以 下 是 一 个 包含 计数 和 百分比 的 混合 矩阵 : 


量 |， 
1 
2 
有 


生生 加 汪 
四 
量 时 汪汪 
69% 
时 时 是 沼 
加 





如 果 sex=M， 则 64% 的 时 候 正确 预测 了 被 搜 身 。 
如 果 sex=F， 则 4% 的 时 候 正确 预测 了 被 搜 壬 。 


虽然 这 只 是 一 个 很 小 的 比例 ， 但 是 你 可 以 看 到 ， 忆 体 上 说 ， 男 性 比 女 性 被 叫 停 的 次 数 要 多 很 多 。 你 也 可 以 推导 出 一 些 条 件 概 
率 ， 比 如 ， 如 果 你 是 女性 ， 有 3/7 (或 43%) 的 概率 会 被 搜 身 。 不 过 ， 如 果 你 是 男性 ， 则 64/92 (或 70%) 的 概率 会 被 搜 身 。 


如 果 sex=Z (未 知 ) ， 则 1% 的 时 候 正 确 预测 了 被 搜 身 。 


12.4.2 构建 新 变量 


尽管 OneR 的 工作 原理 是 找到 单个 最 佳 预 测 因 子 ， 我 们 也 可 以 尝试 通过 构建 一 些 新 的 变量 ， 然 后 让 OneR 把 这 苔 干 新 变量 看 
作 一 个 变量 来 改进 预测 。 


在 下 面 的 代码 中 ， 我 们 结合 多 个 单 变量 的 属性 来 创建 一 些 新 的 变量 。 使 用 的 单 变量 有 体格 (build) 、 眼 睛 颜色 


(eyecolor) 以 及 发 色 (hair color) 。 再 次 运行 OneR 模 型 之 后 ， 你 可 以 看 到 新 变量 有 助 于 提高 预测 准确 率 ， 并 且 其 中 一 个 这 
变量 (eye _hair_ build) 现在 排名 第 二 。 


这 是 一 个 简单 的 例子 ， 况 明 你 如 何 开展 “特征 工程 ”。 


tmP < 一 train_data 

tmp$eye_hair build <- 

paste(train datas$seyecolor,train datashaircolr,train_ datasbuild) 

tmpSweapon <-— 

paste(train datasknifcuti,train datasriflshot,train dataspistol,train datas 
machgun,train datas$othrweap,) 


model <- OneR(tmp, frisked ~ ., Verbose = TRUE ) 


Attribute Accuracy 


1 大 SEX 68.56% 
eye_hair_build 68.97% 
eyecolor 67 .68% 
haircolr 67 .62% 





12.4.3 ”在 测试 样本 上 运行 预测 

eval_ model 函 数 将 预测 规则 应 用 在 测试 数据 上 ， 同 时 还 会 生成 绝对 计数 和 相对 百分比 的 混合 矩阵 ， 因 此 不 需要 和 之 前 一 样 
手动 计算 百分比 。 

将 建 模 结果 应 用 于 测试 样本 ， 显 示 准 确 率 与 训练 样本 相似 ， 验 证 了 结果 的 正确 性 。 


“号 


误差 率 是 错误 分 类 的 和 百分比， 相当 于 1 减 去 准确 率 : 


prediction <- predict (model, test data,type="class") 
#Evaluate prediction statistics 


eval_model (prediction, test_data) 
Confusion matrix (absolute 
actual 
prediction N Y Sum 
N 153 122 275 
于 lJ2b09 2122 3991 
Sum 1422 2844 4266 


Confusion matrix (relative): 


actual 


prediction N YY Sum 


N Q.04 0.903 09.96 
Y QQ.30 QO.64 日 .94 
Sum QQ.33 9.67 1.09g9 


Accuracy: 
0.6739 (2875/4266) 


Error rate: 
9.3261 (1391/4266) 





12.5” 另 一 个 OneR 例 子 


这 个 例子 使 用 了 更 大 的 糖尿 病 数据 集 。 因 为 数据 集中 大 多 数 的 变量 是 数值 型 ，OneR 可 以 对 它们 进行 北 箱 分 类 : 
1) 首先 ,使 用 SQL 读 取 Spark 糖 尿 病 表格 ， 该 表格 已 经 在 上 一 草 的 示例 代码 中 注册 过 。 
2) 随机 收集 15% 的 数据 作为 样本 ， 并 将 其 分 配 到 R (不 是 Spark) 数据 帧 ,命名 为 “local”。 


3) 把 所 有 的 可 用 变量 基于 其 预测 结果 的 能 力 进 行 禾 箱 分 类 ， 并 将 委 箱 分 类 的 变量 分 配 到 R 数 据 帧 ， 命 名 为 “data” : 


library (OneR) 

df = sgql ("SELECT outcome, age, mass, triceps, pregnant, 
glucose, pressure, insulin, pedigree 

FROM global_ temp.df_ view") 


local = collect (sample (df, F,.1o)) 


data <- optbin(local,outcome~.) 
summary (data) 


» (1) Spark Jobs 


age mass triceps 
(-1.54,37.1] :118799 (12.4,35] :121754 (9.793,32.8] :128435 
Ls : 67698 (35,54.2]: 64734 (32.8,58.3] : 58953 


pregnant glucose pressure 
(-5.29,4.91] :117586 (38.9,139] :139919 (35.3,75.6] :114164 
(4.91,13.8] : 68982 (139 ,229] : 47469 (75.6,112] : 72324 
insulin pedigree outcome 
(-149 ,295] :131628 (-9.548;,9.529] :111914 9:121724 
(295 ,447] : 54869 (9.529,1.69]  : 74574 1: 64764 





4) 使 用 所 有 的 变量 运行 OneR 模 型 ， 以 预测 结果 。 前 面 介绍 过 ， 结 果 表明 是 否 有 糖尿 病 : 


model <—- OneR (data, outcome~., verbose = TRUE) 
summary (model) 


prediction <- predict (model, data) 


5) 评估 预测 统计 数据 。 我 们 观察 到 ， 比 起 其 他 预测 因子 ， 血 糖 和 胰岛 素 获 得 了 更 好 的 单 变 量 准确 度 结果 : 


eval_ model (prediction, data) 


Attribute Accuracy 
glucose 76.54% 
insulin 72.25% 
triceps 65 .73% 
age 65 .27% 
mass 65.21% 
pregnant 6S.2171% 
pressure 65.21% 
pedigree 65.27% 


站 


让 iN Pp 


Chosen attribute due to accuracy 


and ties method (if applicable): '' 





现在 我 们 已 经 识别 出 了 重要 变量 ， 是 时 候 来 看 看 DneR 包 如 何 输出 决策 规则 。 由 于 可 以 认为 葡萄 糖 是 最 好 的 预测 因子 ， 所 以 
我 们 看 一 下 糖尿 病 的 决策 规则 ， 它 显示 在 Rules: 这 一 行 下面 ， 而 葡萄 糖 的 最 佳 切 点 (139) 显示 在 交叉 表 中 ， 如 下 图 所 示 。 


DneR(data = data, formula = Outcome ~ ., verbose = TRUE 


Rules: 
If glucose (38.9,139] then outcome 
If glucose (139 ,229] then outcome 
Accuracy: 
142741 of 186488 instances classified correctly (76.54% 
ontingency table: 
glucose 
outcome (38.9,139] (人 139 ,229] Sum 
Q 大 1Q8498 13226 121724 
39521 * 34243 64764 
139@19 474b9 186488 


Maximum in each column: “去 ' 


Pearson's Chi-squared test: 





xX-—-squared = 39311 df = 1,. p-value < 2.2e-16 
现在 看 一 下 混合 矩阵 交叉 表 ， 一 个 表 是 绝对 计数 ， 另 一 个 表 是 相对 百分比 。 


本 例 中 ， 和 葡萄 糖水 平 大 于 等 于 139 时 ， 预 测 出 了 总 病例 中 18% 的 糖尿 病 患 者 。 不 过 ， 需 要 注意 的 是 ， 它 主要 的 预测 能 力 是 预 
测 未 有 生 的 事件 。 也 残 是 讽 ，56% 的 正确 预测 是 来 目 和 葡萄 糖 读 数 低 于 139 的 检测 ， 预 示 未 患 糖尿 病 。 这 是 很 有 价值 的 ， 因 为 它 可 
能 表示 哪些 因子 决定 了 疫 有 患 糖 尿 病 ， 不 过 ， 我 们 还 是 想 知 道 能 够 预测 糖尿 病 的 模型 的 准确 率 。 


这 将 引入 有 关 变 量 之 间 相 互 作用 的 深度 挖掘 ， 会 需要 更 复杂 的 算法 。 不 过 OneR 确 实 提供 了 一 个 很 有 用 的 变量 选择 框 染 。 


Confusion matrix (absolute): 
actual 
prediction 9 1 um 
Q 1Q8498 30521 139019 
1 13226 34243 41469 
Sum 121724 64764 186488 
Confusion matrix (relative): 


actual 





prediction 0 1 Sum 
9 0.58 9.16 0.75 
1 9.97 9.18 9.25 
Sum 9.65 9.35 1.99 

Accuracy: 

0.7654 (142741/186488) 

Error rate: 

0.2346 (43747/186488) 


12.6 ”使 用 rpart 构 建 决策 树 


虽然 OneR 非 常 擅长 确定 简单 分 类 规则 ， 但 它 不 能 构建 完整 的 决策 树 。 不 过 我 们 可 以 从 spark 中 提取 一 个 样本 ， 并 把 这 个 样 
本 传送 给 任何 R 决 策 树 算法 ， 如 rpart。 


12.6.1 ”首先 收集 样本 


为 了 训 明 问题 ， 我 们 先 从 盘查 数据 帧 中 取 50% 作 为 样本 。 我 们 还 需要 确保 提取 的 数据 量 可 以 在 基础 R 环 境 中 轻松 地 处 理 ， 因 
为 基础 R 有 和 CPU 大 小 有 关 的 内 存 限制 |。 


以 下 代码 将 先 从 Spark 中 提取 50% 的 样本 ， 并 将 样本 存储 在 一 个 本 地 的 有 R 数 据 帧 中 ， 命 名 为 dflocal。 


No 


. 然后 运行 一 次 stt () 命令 验证 行 数 和 元 数据 : 


7 


ELCOCS 二 COLlLeECt LSamMmbLe (als Fy UL 
str(dflocal) 


输出 表明 ，R 数 据 帧 有 11 311 行 ， 大 约 是 盘查 数据 集中 22 563 行 的 50%。 


'data.frame': 11311 obs. of 113 variables: 

year 2 "2815” “2815” “2815” “ “280815” 。.。 

pct 2 和 二 

Ser_num : 1 41 39 122 9 141 21535321 ..。 

datestop: 1i 1292915 1292915 29620915 2142915 3142915 1912915 19120915 1912915 1912915 1912915 ... 
timestop: 1i 1745 1745 2155 2099 15 19 59 115 229 239 ... 
recstat : i i te 

inout i i i i 

trhsloc : “EE TP gon 

perobs :1i | 

crimsusp: "SD “WioO SN "FEL FEUNY™ ss 

perstop : 1i le Ba 0 Joo242195 ... 

typeofid: “ 

explnstp: “和 

othpers : 


Uy 


arstmade: 
arstoffn: 
sumissue: 


sumoffen:’ ww WwW WW WwW WW 





$ 
$ 
$ 
$ 
$ 
$ 
$ 
$ 
$ 
$ 
$ 
$ 
$ 
$ 
$ 
$ 
$ 


12.6.2 ”使 用 rpart 的 决策 树 


我 们 将 rpart 算 法 作为 一 棵 回归 树 来 运行 。 回 想 一 下 前 面 说 过 的 ， 当 输出 变量 是 数值 形式 而 不 是 名 义 变量 了 时， 请 使 用 回归 
树 。 在 运行 算法 之 前 ， 需 要 将 frisked=Y/N 映 射 为 frisked=1/0， 并 在 调用 中 指定 method="anova"。 


最 后 一 行 代码 (fit) 将 决策 规则 以 文本 形式 输出 到 控制 谷 。 


指定 参数 height、sex、age 和 city， 把 它们 作为 主要 的 分 类 因子 


Set .SeeQ (123) 
LLGOraryvtrearE 
dflocalsfrisked bin <- ifelse(dflocals$sfrisked=="Y",1,0) 


fit <- rpart (frisked bin ~ sex + age + Weldht + height + perstop + city ， 
method="anova", maxdepth=3, cp=.001, data=dflocal) 
开工 攻 


chr T211311] WN™ wN™ nmYn wrN™ nmYn wy™ wy™ YI wy™ wy" 
n= 11311 


node), split, n, deviance, yval 


大 denotes terminal node 


1) root 11311 2482.374999 9.6747414 
2) sex=F 753 185.6292099 9.4499931 
4) height< 65.5 418 98 .98809049 8.3851675 大 
5) height>=65.5 335 83.713439 ©@.5104478 大 
3) sex=M,Z 19558 2252.643999 9.6914188 
6) city=BROOKLYN ,MANHATTAN ,QUEENS ,STATEN IS 8339 1841.411999 9.6798238 
12) age>=28.5 2998 683.996599 9@.6217331 大 
13) age< 28.5 5431 1146.745999 9@.6971992 大 
7) city=BRONX 2219 394.492999 9.7688148 
14) age>=69.5 26 6.346154 ©@.4230769 大 
15) age< 69.5 2193 384.911199 0@.7729138 大 





12.6.3 ”绘制 树 


查看 树 的 直观 呈现 形式 要 容易 理解 得 多 。 因 此 需要 安装 rpart.plot (如 果 还 没有 安装 的 话 ) ， 这 样 你 就 可 以 看 到 绘制 的 树 
El, 


我 们 可 以 看 到 第 一 条 规则 对 应 的 主要 规则 (根据 性 别 Gender 划 分 ) ， 该 规则 是 在 本 章 之 前 的 部 分 由 OneR 包 生成 的 。 


Qqevtools::instal1l1_d9ithub ("cran/rpPatrt .plot") 
library (rpart .plot) 
reart .PLOoOt (LT1t, Cex=, [3 


city = BROOKLYN,MANHATTAN,QUEENS,STATEN IS 


0.67 0.77 
74% 20% 


age >= 28 age >= 60 
0.39 0.62 0.7 0.42 0.77 
4% 26% 48% 0% 19% 





12.7 ”运行 Python 中 的 另 一 种 模型 


在 这 个 例子 中 ， 我 们 先 从 Spark 数 据 帧 中 提取 样本 ， 再 使 用 基础 R 运 行 树 模 型 ， 在 R 语 言 中 运行 决策 树 。 尽 管 这 是 完全 可 以 接 
受 的 〈 因 为 它 迫 使 你 去 考虑 抽样 的 问题 ) ， 然 而 在 多 数 情 况 中 ， 还 是 使 用 MLlib 包 或 类 似 的 其 他 包 直 接 企 park 数 据 帧 运行 模型 
更 有 效率 。 

关于 Spark 的 版 本 ， 请 使 用 版 本 2.1; 决策 树 算法 不 能 在 Ri 语言 下 运行 。 笠 运 的 是 ， 已 经 用 Python 和 SScala 语 言 实 现 了 原生 
spark 决 策 树 。 我 们 将 用 Python 来 说 明 这 个 例子 ， 这 样 你 可 以 看 到 ， 还 有 其 他 的 选择 可 以 使 用 。 如 果 继 续 用 Spark 中 的 算法 进行 
开 上 及 ， 会 上 友 现 算法 通常 都 是 先 用 Scala 语 言 写 的 ， 因 为 Scala 是 原生 的 Sparki 否 言 。 


12.7.1 运行 Python 决策 树 


下 面 我们 对 下 方 的 Python 决策 树 示 例 代 码 做 一 些 说 明 。 


对 于 第 一 段 代 码 块 ， 需 要 注意 的 是 在 代码 第 一 行 的 “魔术 ”命令 。 魔 木 命令 以 “%” 开 头 ， 并 指定 了 你 将 使 用 的 语言 或 AP| 
类 型 。 由 于 我 们 要 使 用 的 语言 是 Python 而 不 是 R， 因 此 需要 在 第 一 行 指明 %python。 因 为 笔记 本 原本 设置 的 是 R 笔 记 本 。 如 果 你 
需要 同时 使 用 不 同 的 编程 语言 ， 需 要 在 第 一 行 指明 使 用 的 是 哪 种 语言 ， 除 非 你 正在 使 用 该 笔记 本 默认 的 编程 语言 。 


对 于 不 熟悉 Python 的 读者 ， 我 们 需要 解释 一 下 ， 在 代码 前 几 行 的 import 指 令 导 入 了 需要 的 库 和 模块 ， 这 些 库 和 模块 用 于 


Python， 和 Ri 语言 中 使 用 库 函 数 的 方式 类 似 。 如 果 你 没有 提供 Import 指令 ， 通 单 会 编译 出 儿 。 


12.7.2” 读 取 盘 查 表 格 


第 一 个 代码 块 读 取 StopFrisk 数 据 帧 ， 和 本 节 之 前 使 用 spark.sqI 的 方式 类 似 。 注 意 观察 使 用 Python 的 SQL 语 法 可 以 发 现 ， 和 
我 们 之 前 使 用 R 语 言 时 的 SQL 语 法 非常 相似 。 


在 SQL 调 用 中 ， 结 果 变 量 frisked 映 射 到 使 用 CASE 声 明 的 二 进 制 变 量 。 这 样 做 的 原因 是 ， 比 起 处 理 字符 型 数据 ，MLlib 算 法 
更 擅长 处 理 整 型 数据 。 如 果 使 用 字符 型 数据 ， 变 量 frisked 一 般 需 要 映射 到 一 个 整数 或 者 标 稚 点 。 


由 此 产生 的 数据 帧 (df2) 使 用 show (5) 销 数 来 展示 ， 该 浮 数 在 Python 中 等 价 于 R 语 言 中 的 head (df2，5) 阔 数 : 


python 


from pyspark.mllib.tree import DecisionTree, DecisionTreeModel 
from pyspark .mllib.util import MLUtils 

limport pyspark.mllib 

lmport pyspark.mllib.regression 

from pyspark .mllib.regression import LabeledPoint 

from pyspark.sgql .functions import * 

from pyspark.ml.feature import StringIndexer 


df2 = spark.sgql ("SELECT case when frisked='Y' THEN 1 else 0 END as 
frisked2,case when sex='M' THEN U else 1 END as sex2, race, age, welght 


FROM stopfrisk") 


df2.show (5) 


» (1) Spark Jobs 


a 
14 | 
14 | 
14 | 
13 | 


only ShowTng top 5 rows 





12.8 率 5| 分 类 特征 


索引 用 于 优化 数据 访问 能 力 ， 并 以 可 接受 的 格式 提供 参数 据 定 机 器 学 习 的 算法 。 


我 们 要 把 种 族 (race) 变量 合并 到 决策 树 模 型 中 ， 所 以 第 一 步 是 确定 种 族 变 量 有 哪些 不 同 的 值 。 我 们 再 次 通过 SQL 来 计算 种 
族 race 的 频率 。 请 注意 ， 我 们 可 以 使 用 “Group by Race”， 也 可 以 使 用 “Group by 1”，“Group by 1” 是 select 声 明 中 指 
定 第 一 列 (race) 的 一 个 简写 引用 : 
python 


dfx = spark.sgql ("SELECT race,count (*) FROM stopfrisk group by 1") 
dfx.show() 


观察 这 8 个 值 : Q、B、U、Z、A、W、 | 以 及 P: 





fF Gnasle Inhe 





+ 一 一 一 一 十 一 一 一 一 一 一 一 一 十 


| race|count(1) | 





硬 








接 下 来 ， 使 用 indexer.fit (df2) 来 做 转换 。 这 会 将 一 个 字符 串 因 子 (race) 映射 为 一 个 数值 型 索引 (race indexed) : 


spython 
lndexer = StringIndexer (inputCol="race", outputCol="race_indexed") 
df3 = indexer.fit (df2) .transform(df2) 


df3.show!(15) 
#drop race for the final dataframe 


df4 = df3.drop("race") 


观察 race 和 race_indexed， 看 看 如 何 用 一 个 数字 蔡 换 一 个 字符 : 


， (2) Spark Jobs 


十 一 一 一 一 一 一 一 一 十 一 一 一 一 十 一 一 一 一 十 一 一 一 十 一 一 一 一 一 一 十 一 一 一 一 一 一 


一 一 一 一 一 一 十 


| frisked21|sex2|racelage|weight|race_indexed | 


+ 一 一 一 一 一 一 一 一 十 一 一 一 一 十 一 一 一 一 十 一 一 一 十 一 一 一 一 一 一 十 一 一 一 一 一 一 


2.8| 
9.6| 
9.6| 
9.6| 
9.6| 
2.6| 
9.6| 
9.6| 
9.6| 
2.6| 
9.6| 

















only showine top 15 rows 


我 们 只 看 到 了 少数 几 个 输出 记录 。 而 我 们 真正 想 看 到 的 是 所 有 race 的 值 以 及 其 值 的 统计 。 可 以 利用 PySpark SQL 中 的 


CountDistinct 从 句 来 获取 : 


python 
df3.registerTempTable ("df3") 


# Perform the same query as the DataFrame above and return 


“explain 


countDistinctDF_sql = sqlContext .sql ("SELECT race,race_indexed, count (race) 


FROM df3 GROUP BY race, race_ indexed") 
COUNtDIisStinertDe sole ahowl) 


然后 会 显示 所 有 的 race 值 以 及 相应 的 这 引 ， 包 括 它们 的 计数 : 


» (5) Spark Jobs 


|Irace|race_ indexed|count(race)| 


才 一 一 一 一 肯 一 一 一 一 一 一 一 一 一 一 一 一 肯 一 一 一 一 一 一 一 一 一 一 一 咎 
| WI| 2.8| 2514| 
| B | 0.8| 11956 | 
| P| 3.8| 1469 | 
| Z| 5.08 | 298 | 
| QI 1.9| 5696 | 
| A 4.8| 1163 | 
| I | 7.8| 77 | 
| UI| 6.8 | 122 | 
二 一 一 一 一 二 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 


我 们 还 需要 一 个 码 本 来 对 race 的 值 进行 解码 ， 以 确保 能 理解 它们 真正 的 意义 。 


LaGe 
ASIAN/PACIFIC ISLANDER 
BLACK 
AMERICAN INDIAN/ALASKAN NATIVE 
BLACK-HISPANIC 
WHITE-HISPANIC 
WHITE 
UNKNOWN 
OTHER 


NX 三 OPW 


12.8.1 上映 时 人 天 RDD 


我 们 将 使 用 的 决策 树 算法 源 目标 准 Spark MLlib 库 。 该 实现 要 求 输入 都 格式 化 为 以 标记 点 的 形式 。 标 记 点 形式 有 助 于 指定 哪 


些 变 量 是 目标 变量 ， 哪 些 是 特征 变量 。 


对 于 这 个 例子 ， 目 标 标 量 (frisked2) 是 第 一 个 被 列 出 的 变量 (我 们 将 第 一 个 变量 称 为 column 0) ， 所 以 目标 变量 在 
LabeledPoint 调 用 中 指定 为 line[0]。 


目 变 量 ,， 或 者 叫 特征 ， 包 含 在 剩 下 的 列 中 ， 并 被 指定 为 line[1: ]。 这 是 个 简写 ， 表 示 列 1 和 其 之 后 所 有 的 列 。 

关于 特征 ， 它 们 在 模型 中 按 顺 序 编号 ， 对 应 于 它们 出 现在 数据 帧 中 的 顺序 。 对 于 我 们 的 模型 ， 它 们 的 命名 规则 如 下 所 示 : 
“ 特征 值 0: Sex 

特征 值 1: Age 

特征 值 2: Weight 

“ 特征 值 3: Race 


因为 这 是 一 个 基于 RDD 的 模型 ,首先 利用 标记 扣 将 数据 帧 映射 到 一 个 RDD， 先 指定 目标 变量 ， 然 后 指定 特征 变量 : 


Python 
rdd1l = df4.rdd.map (lambda line:LabeledPoint (line[0],[line[1:]])) 


输出 RDD 结 果 的 其 中 一 部 分 。 调 试 RDD 的 输出 可 能 比较 困难 ; 不 过 ， 你 可 以 从 输出 看 出 ， 每 个 标记 点 的 第 一 对 键 值 对 都 是 1 
或 者 0。 第 二 对 键 值 对 (包含 在 括号 中 ) 是 一 个 特征 向 量 ， 可 以 把 它 与 预测 因子 匹配 ， 并 仔细 检查 ， 以 确保 标记 点 是 正确 的 : 


print rddil .take (5) 
) Spark Jobs 
LabeledPoint (1.0, [0.0,33.0,190.0,2.0]1), LabeledPoint (1.0, 
0.0,14.0,140.0,0.0]), LabeledPoint (0.0, [0.0,14.0,140.0,0.0]),， 
) 


(1 
[ 
[ 
LabeledPoint (0.0, [0.0,14.0,180.0,0.0]), LabeledPoint (0.0, 
[DQ L330 100, WU UN 


12.8.2 ”指定 决策 树 模型 
还 记得 我 们 讨论 过 的 分 类 特征 映射 吗 ? 使 用 分 类 特征 信息 参数 ， 指 定 哪些 变量 是 真正 的 分 类 变量 ， 而 不 仪 仪 是 映射 到 一 个 索 
引 。 


在 我 们 的 例子 中 ，Frisked 有 两 个 分 级 ， 因 此 指定 Frisked 为 0 : 2 (目标 变量 有 2 个 级 别 ) ， 而 Race 有 8 个 分 级 ， 因 此 指定 
Race 为 3 : 8 (第 三 个 特征 有 8 个 级 别 ) : 


正确 设置 决策 树 模 型 的 其 他 参数 如 下 。 
numClasses: 该 参数 用 于 指定 结果 数量 ; 在 本 例 中 ， 该 参数 为 2。 


maxDepth: 你 希望 决策 树 有 多 深 ? 为 了 便于 说 明 ， 我 们 将 其 设置 为 两 层 深 , 但 是 对 于 实际 的 问题 ， 你 应 该 试 着 将 这 个 参 
数 设置 得 更 大 一 些 ， 使 用 更 深 的 决策 树 。 但 别 志 了 ， 如 果 你 试图 将 决策 树 设置 得 太 深 ， 模 型 会 发 生 过 拟 合 。 


maxBins: 在 SpatkR 中 ， 最 多 可 以 有 32 个 分 箱 


现在 已 经 设置 完毕 ， 可 以 运行 这 个 模型 了 。 创 建 一 棵 简单 的 树 ， 深 度 不 超过 两 层 : 
python 


model train = 
DecisionTree.trainClassifier(rddi,numClasses=2,maxDepth=2,maxB1ins=32, 


CategoricalFeaturesInfo={0:2,3:8} ) 


模型 完成 和 之后， 使 用 DebugString () 函数 将 其 输出 为 一 个 文本 文件 。 产 生 你 的 决策 树 规则 : 


print (model train.toDebugString()) 
» (6) Spark Jobs 


DecisionT reeModeL classifier of depth 2 with 7 nodes 


If (feature © in {1.86}) 
If (feature 2 <= 154.0) 


Predict: ©.9 
Else (feature 2 > 154.9) 


Predict: 1.09 
ELse (feature 9 not in {1.©}) 
If (feature 3 in {5.0,6.0,2.0,7.0,3.0,4.96}) 


Predict: 1.9 
ELse (feature 3 not in {5.0,6.0,2.0,7.0,3.9,4.0}) 


Predict: 1 工 .9 





为 了 用 代码 表明 特征 0、1、2、3 和 意味 着 什么 ， 我 们 需要 将 特征 数 映 射 为 特征 的 名 字 ， 以 及 特征 的 结果 值 ， 利 用 的 是 我 们 前 


边 运行 的 码 书 和 SQL 代码 。 


我 们 可 以 手动 将 输出 表达 为 简单 的 区 语 朱 述 ， 特 别 是 当 决 策 树 输出 有 时 会 产生 欧 雇 的 或 刀 余 的 规则 时 。 看 看 你 能 否 在 前 面 的 


代码 中 找到 这 段 摘 述 的 对 应 部 分 


If sex LS equal to 1 (Female) 
1If weight <= 154 then subject was NOT frisked 


Else if weight > 154 then Subject WAS frisked 


If sex LS NOT equal to 1 (Male) 
BOTH race paths lead to Subject WAS frisked 


12.8.3 ”生成 更 大 的 树 


有 时 对 于 规模 小 的 树 ， 决 策 规则 可 能 过 于 无 价值 或 过 于 明显 。 在 这 种 情况 下 ， 合理 的 做 法 通 党 是 增加 树 的 节点 的 数目 。 此 处 


我 们 将 生成 一 棵 深度 为 15 的 树 : 


python 

rddi = df4.rdd.map (lambda line:LabeledPoint (line[0], [line[1:]])) 
radq1 .七 ake(15) 

model_train = 
DecisionTree.trainClassifier(rddi,numClasses=2,maxDepth=15,maxBins=32, categ 
oricalFeaturesInfo={0:2,3:8} ) 

print (model_train.toDebugString()) 


同样 ， 有 些 规 则 看 起 来 是 多 余 的 ， 因 此 需要 做 更 多 的 工作 ， 将 这 一 输出 转换 为 有 意义 的 业务 规则 。 


» (20) Spark Jobs 
DecisionilreeModel classifier of depth 15 with 4291 nodes 
If (feature © in {1.61) 
If (feature 2 <= 154.0) 
If (feature 1 <= 54.0) 
If (feature 2 <= 129.9) 
If 【feature 1 <= 37.9) 
If (feature 3 in {5.96,1.9,6.9,2.96,3.6,4.6j) 
If (feature 1 <= 23.6) 
If (feature 3 in {4.0}) 
If (feature 1 <= 16.9) 
If (feature 1 <= 15.6) 
Predict: 0. 
Else (feature 1 > 15.9) 
Predict: 1.9 
Else (feature 1 > 16.6) 
If (feature 1 <= 22.8) 
If (feature 1 <= 18.9) 
If (feature 1 <= 17.6) 
Predict: ©.09 
ELse (feature 1 > 17.6) 
If (feature 2 <= 117.9) 


12.8.4 可 钢化 树 


决策 树 规则 可 能 会 非常 难以 理解 ， 除 非 你 能 够 对 输出 进行 可 视 化 处 理 。 如 果 你 没有 使 用 Scala 语 言 实现 决策 树 (该 语言 有 一 
种 树 的 可 视 化 方法 ， 就 是 使 用 Databricks 的 display 命 令 ) ， 还 有 以 下 选项 。 


首先 把 Spark 输 出 对 象 解 析 成 JJON 格 式 ， 然 后 使 用 D3.js 把 它 输入 到 可 视 化 树 。GitHub 上 有 一 些 预 置 的 软件 包 可 以 帮助 你 完 
成 这 一 过 程 。 


使 用 Scala 语 言 ， 将 你 创建 的 RDD 写 入 到 一 个 文件 ， 将 RDD 输 入 并 运行 Decision-TreeClassifier () 。 然 后 拟 合 模型 ， 并 在 
模型 上 使 用 Databricks 的 display 命 令 显 示 这 棵 树 。 


12.8.5 ”比较 六 测试 决策 树 





决策 树 不 存在 了 预测 方法 ， 但 是 我 们 仍然 可 以 用 测试 和 训练 数据 集 生 成 各 目的 树 ， 并 比较 它们 ， 以 确定 模型 的 合理 性 。 


使 用 糖尿 病 的 例子 ， 我 们 可 以 先 在 训练 数据 中 运行 PySpark 决 策 树 。 此 外 ， 结 果 变 量 是 第 一 列 (#0) ， 在 LabeledPoint 中 
引用 了 它 ， 并 且 通 过 (1: ) 指定 其 后 所 有 的 变量 作为 特征 : 


Python 
df = spark.sql ("SELECT outcome, age, mass, triceps, pregnant, glucose, 


pressure, insulin, pedigree FROM global temp.df_ view") 

#SsqlDF .show () 

rad1 = df.rdd.map (lambda line:LabeledPoint (line[l0],[line[i:]])) 

model train = 

DecisionTree.trainClassifier (rdd1l,numClasses=2,maxDepth=2,maxBins=32, 


categoricalFeaturesInfo={}) 


print (model train.toDebugSstring'()) 


决策 树 确定 了 特征 4 (glucose) 以 及 特征 6 (insulin) 是 两 个 最 重要 的 分 裂 /划分 变量 。 这 两 个 变量 的 确 是 很 好 的 选择 ， 
为 它们 都 会 影响 血糖 的 水 平 : 


(bj >park Jobs 


DecisionT reeMocdeL classifier of depth 2 with 7 nodes 

If 人 (feature 4 <= 144.2881556596644) 

If (feature 6 <= 244.2896167968184) 
Predict: 6.9 

ELse 人 (feature 6 > 244.2896167968184) 
Predict: 1.0Q 

ELse (feature 4 > 144.2881556596644 ) 
If (feature 6 <= 233.49668637867514) 
Predict: 1.0Q 

ELse 人 (feature 6 > 233.49668637867514) 
Predict: 工 .9 








现在 ， 在 测试 数据 上 运行 相同 的 代码 。 结 果 是 相似 的 ; 不 过 ， 测 试 数 据 的 树 颠 倒 了 特征 6 和 特征 4 的 顺序 。 在 现实 世界 ， 特 
征 顺 序 苏 倒 是 可 接受 的 ， 但 是 如 果 我 们 生成 的 是 一 棵 完全 不 同 的 树 ， 要 看 看 为 什么 这 两 个 模型 是 不 同 的 ， 并 尝试 调试 模型 的 这 两 
个 不 同 版 本 。 如 果 你 不 能 解释 版 本 的 不 同 之 处 ， 可 能 得 考虑 返工 。 如 果 存 在 着 重大 的 差异 ， 你 甚至 得 考虑 放弃 这 个 模型 : 


$$python 


test = spark.sql ("SELECT outcome, age, mass, triceps, pregnant, glucose, 
pressure, insulin, pedigree FROM global temp.test_ view") 


rdd2 = test.rdd.map (lambda line:LabeledPoint (lijne[0], [line[i1:]])) 
model test = 


DeclisionTree.trainClassifier (rdd2,numClasses=2,maxDepth=2,maxBins=32, 
categoricalFeaturesIlInfo={}) 


#model .save (spark, "/myDecisionTreeClassificationModel") 


print (model_ test .toDebugSstring'()) 


» (6) Spark Jobs 


DecisionireeModel classifier of depth 2 with 7 nodes 
If (feature 6 <= 258.7717216438844) 
If (feature 4 <= 134.95577326132448) 
Predict: ©.0 
Else (feature 4 > 134.95577326132448) 


Predict: 1.9 
Else (feature 6 > 258.7717216438844) 
If (feature 6 <= 363.47523597134343 ) 
Predict: 1.9 
ELse (feature 6 > 363 .475235697134343) 
Predict: 1.9 





12.9 本草 小 结 


本 章 结束 了 ， 这 本 书 也 结束 了 。 开 始 我 说 过 ， 这 是 一 本 不 一 样 的 有 关 预 测 分 析 的 书 ， 从 技术 和 概念 的 角度 介绍 了 很 多 不 同 的 
话题 。 我 希望 你 们 已 经 从 这 里 学 到 不 少 东 西 ， 并 且 书 中 还 提供 了 一 些 新 的 算法 ,介绍 了 一 些 “ 老 ”工具 (如 SQL) ， 在 处 理 繁 重 
的 任务 时 SQL 非 党 有效， 有 时 你 会 需要 它 。 我 还 努力 重点 解释 “小 数据 ”、 元 数据 以 及 抽样 的 概念 ， 希 望 这 样 可 以 帮助 你 只 须 单 
独得 看 各 个 部 分 残 能 更 好 地 理解 数据 。 我 也 希望 书 中 的 一 毕 资 料 能 帮助 你 和 具有 不 同 技能 的 不 同 团队 成 员 合作 。 这 些 成 员 包 括 
任何 优化 代码 万 面 的 专家 或 统计 方面 的 专家 ， 和 业务 中 所 有 关键 人 物 合 作 以 及 能 够 沟通 业务 需求 和 愿望 的 人 。 是 的 ， 如 果 你 能 做 
到 所 有 这 些 固然 非 党 好， 但 是 对 于 预测 分 析 来 说 ， 认 真 倾听 和 埋头 做 事 一 样 重要 ，。 


无 论 是 编程 语言 还 是 平台 选择 ， 我 们 所 讨论 的 大 部 分 内 容 都 适用 于 你 将 参与 的 各 种 类 型 的 分 析 项 目 。 这 就 是 我 想 在 末尾 时 洱 
苹 一 些 云 计 算 和 SQL 实 例 的 原因 ， 最 后 还 使 用 了 一 个 Python 的 例子 ， 用 来 证 明 预 测 分 析 人 员 可 以 结合 不 同 的 拉 能 ， 并 整合 工作 
人 员 在 6 个 步骤 中 的 工作 (在 本 书 前 面部 分 讨论 过 的 ) 来 实现 一 个 成 功 的 分 析 方 法 和 框架 。 


人 饮 建 模 和 从 快 ! 


